وقتی یه حوزه خیلی سریع رشد میکنه، واژههاش غالباً سریعتر از درک مشترک مردم پیشرفت میکنن. اصطلاحات شروع به مبهم شدن میکنن یا تبدیل به اختصارهایی میشن که هیچوقت کامل توضیح داده نمیشه. الان دقیقاً داریم این رو توی دنیای Agentهای هوش مصنوعی میبینیم، مفاهیم با هم قاطی میشن، بعضیها تغییر نام پیدا میکنند، و تعدادی دیگه برای چند ماه حسابی استفاده میشن و بعد بیسروصدا محو میشن.
این موضوع میتونه برای تازهواردها، و حتی برای متخصصایی که سعی میکنن همگام با آخرین تحولات پیش برن، طاقتفرسا باشه. در کنفرانس ICLR 2026 سوالی مطرح شد که این سردرگمی رو خیلی خوب نشون میده:
«منظورتون از اصطلاحات "harness" و "scaffold" در دنیای agentها چیه؟ تو ICLR کلی توضیح مختلف شنیدم، اما نفهمیدم چرا هیچ کدوم به یک جمعبندی واحد نرسیدن.»
این فرهنگ واژه تلاش ماست برای شفافسازی اصطلاحاتی که مدام مطرح میشن بدون توضیح واضح و یکدست. هدف این نیست که دیکشنری جامعی از همه اصطلاحات این حوزه باشه. در عوض، تمرکز روی مفاهیمی هست که اغلب قاطی میشن، به شکلهای مختلف استفاده میشن، یا فرض میشه بدیهیان در حالی که نیستن.
بیشتر این اصطلاحات چه در حال ساخت یک Agent باشید، چه در حال بهکارگیری اون، و یا حتی هنگام استفاده از ابزارهایی مثل Claude Code، Codex یا Hermes Agent، مطرح میشن. بخش آخر به مفاهیمی میپردازه که مخصوص آموزش مدلها هستن و اگر در اون حوزه فعالیت میکنین، مرتبطتر خواهد بود.
خیلی از این اصطلاحات هنوز تعریف جهانی و یکسانی نداره، و فریمورکهای مختلف ممکنه واژه رو جور متفاوتی استفاده کنن. هدف این نیست که یک واژهنامه اجباری تحویل بدیم، بلکه میخوایم یه مدل ذهنی کاربردی ارائه بدیم که بحثها رو قابل فهمتر کنه.
بریم سر اصل مطلب.
فهرست مطالب
- مدل (Model)
- داربستبندی (Scaffolding)
- هارنس (Harness)
- عامل (Agent)
- مهندسی کانتکست/زمینه (Context Engineering)
- خط مشی (Policy)
- استفاده از ابزار (Tool Use)
- مهارتها (Skills)
- زیرعاملها (Sub-agents)
مدل (Model)
مدل همون LLM هست: ورودی متنی میگیره و خروجی متنی تولید میکنه (مثل Claude، Qwen، GPT، Kimi، DeepSeek و...). این مدل به تنهایی هیچ حافظهای بین فراخوانیهای مختلف نداره و چرخهای هم در کار نیست. مدل میتونه قصدش رو برای فراخوانی یک ابزار بیان کنه، اما برای اجرای واقعی اون نیاز به یک Harness داره. مدل فقط به یک پرامپت پاسخ میده و بعد متوقف میشه. اگه دورش رو با Scaffolding و Harness بپوشونید، تبدیل به یک ایجنت میشه.
داربستبندی (Scaffolding)
خیلی ساده بگم: «داربست» اون لایهایه که رفتار هوش مصنوعی رو شکل میده. شامل چیزایی مثل پرامپتهای سیستمی (System Prompt)، توضیحات ابزارها، روش تحلیل جوابها و حافظهی مدل حین کار (همون Context). به زبون آدمیزاد: این لایه تعیین میکنه مدل چطور دنیا رو ببینه و توش عمل کنه؛ چه موقع داره آموزش میبینه (Train) و چه موقع داره کار واقعی انجام میده (Inference).
هارنس (Harness)
لایهی اجرایی داخل agent میباشد: مدل را صدا میزنه، فراخوانی ابزارهای مدل را هندل میکنه، و تصمیم میگیره کی متوقف بشه. Harness چیزیست که agent را به اجرا درمیاره.
مهندسی هارنس (Harness engineering) یعنی طراحی درست این لایه: تعیین کنید agent کی باید متوقف بشه، خطاها چطور هندل بشن، و چه نردههای محافظتی (guardrails) مسیر رو ایمن نگه دارن. این کار هم در آموزش و هم در استنتاج کاربرد داره.
عامل (Agent)
این اصطلاح از reinforcement learning (یادگیری تقویتی) میاد، جایی که agent صرفاً تابعی است که یک مشاهده (observation) را به عنوان ورودی میگیرد و یک اقدام (action) خروجی میدهد. محیط (environment) آن اقدام را میگیرد و یک مشاهده (observation) جدید برمیگرداند، و این حلقه تکرار میشود. این حلقه هنوز هم هسته اصلی کار agent های مبتنی بر LLM هاست.
در دنیای LLM، این اصطلاح گسترش پیدا کرده. یک agent شامل خود مدل به اضافه همه چیز اطراف آن است که به مدل اجازه میدهد عمل کند، نه فقط پاسخ بدهد. یعنی قابلیت تبدیل متن خام به چیزی که میتواند در حلقه مقابل عمل کند: اطلاعات را دریافت کند، تصمیم بگیرد چه کار کند، و روی نتایج عمل نماید.
یک agent کدنویسی را مثال بزنیم. پرامپت سیستمی، توضیحات ابزارها، و قالب خروجی که مدل دنبال میکند، همان scaffolding هستند. حلقهای که مدل را صدا میزند، فراخوانی ابزارها را هندل میکند و تصمیم میگیرد کی متوقف شود، همان harness است. در زمان آموزش، harness همچنین بسیاری از این حلقهها را به موازات هم اجرا کرده و نتایج را به مدل بازمیگرداند تا بهروزرسانی شود.

در مجموع در این حوزه معمولاً گفته میشه Agent = Model + scaffolding + Harness .
مهندسی کانتکست/زمینه (Context Engineering)
طراحی چیزهایی که وارد پنجره زمینه (context window) یک ایجنت میشن: یعنی مدل در هر مرحله چی میبینه؛ شامل پرامپت سیستمی، توضیحات ابزارها، تاریخچه مکالمه و دانش بازیابیشده.
این مفهوم هم در مرحله آموزش و هم در استنتاج (inference) کاربرد داره، اما هزینهٔ اشتباه کردن در هر کدوم خیلی متفاوته. توی مرحله آموزش، چیزهایی که مدل میبینه تعیین میکنه چه چیزی یاد گرفته بشه. اگه اشتباه کنید، باید دوباره آموزش بدید. اما توی مرحله استنتاج، همهچیز فقط متنه، پرامپت رو تغییر میدید و دوباره دیپلوی میکنید(البته اگر از استودیوی هوش مصنوعی پارت استفاده کنید نیاز نیست دوباره دیپلوی کنید).
حافظه (memory) هم بخشی از همین داستانه. حافظه کوتاهمدت (short-term memory) همون چیزیه که در طول یک نشست داخل پنجره زمینه باقی میمونه: مثل تاریخچه مکالمه، نتایج ابزارها و استدلالهای قبلی. حافظه بلندمدت (long-term memory) اما بین نشستهای مختلف باقی میمونه، جایی در بیرون ذخیره میشه و وقتی نیاز باشه بازیابی شده و در صورت مرتبط بودن، دوباره به زمینه تزریق میشه.
خط مشی (Policy)
خطمشی (Policy) همون رفتاریه که یک ایجنت از اون پیروی میکنه: یعنی برای هر موقعیتی، مشخص میکنه که چقدر احتمال داره هر کدوم از اقدامات رو اتخاض کنه. توی سیستمهای مبتنی بر LLM، بخشی از این خطمشی توی وزنهای مدل یاد گرفته میشه، اما رفتار نهایی به داربستبندی و هارنس اطرافش هم وابستهست. همون مدل میتونه بسته به پرامپتها، ابزارها، حافظه و حلقه اجراییاش، رفتارهای کاملاً متفاوتی از خودش نشون بده.
خطمشی خودِ ایجنت نیست. خطمشی فقط رفتار رو تعریف میکنه؛ در حالی که ایجنت کل سیستمیه که توی یک محیط دست به اقدام میزنه.
استفاده از ابزار (Tool Use)
این همون راهیه که ایجنتها از طریقش به دنیای بیرون وصل میشن: APIها، مفسرهای کد، پایگاههای داده، جستجوی وب و سیستمهای فایل. مدل قصدش برای استفاده از یک ابزار رو در یک قالب ساختاریافته بیان میکنه. APIهای استاندارد مدل های زبانی، این موضوع رو به عنوان یک بخش اصلی پشتیبانی میکنن: هارنس فراخوانی رو مستقیماً دریافت میکنه و اون رو به تابع درست هدایت میکنه. بعد نتیجه دوباره به زمینه (Context) برمیگرده و چرخه ادامه پیدا میکنه.
مهارتها (Skills)
بستههای دانشِ قابل استفاده مجدد و ساختاریافته که کارهای چندمرحلهای رو ممکن میکنن. یک مهارت همه چیزهایی که برای رسیدن به یه هدف لازمه رو با هم بستهبندی میکنه («این باگ رو بررسی کن، فرضیهسازی کن و یه فیکس براش بنویس»). این مهارتها بین ایجنتهای مختلف قابل جابهجایی هستن و فقط وقتی نیاز باشه توسط مدل لود و استفاده میشن.
زیرعاملها (Sub-agents)
عاملی که توسط یک عامل دیگه فراخوانی میشه تا یه زیروظیفه خاص رو هندل کنه. این زیر-عامل، مدل و داربستبندی (Scaffold) مخصوص خودش رو داره، مستقل فکر میکنه و نتیجه رو برمیگردونه. عامل اصلی نیازی نداره بدونه زیر عاملش چطور کار میکنه. یه زیر-عامل میتونه خودش استدلال کنه، از ابزارها استفاده کنه و حتی زیر-عامل های دیگهای رو صدا بزنه. به عاملی که بقیه رو مدیریت میکنه گاهی ارکستراتور (Orchestrator) هم میگن.
آموزش (Training)
اصطلاحات قبلی چه در حال آموزش مدل باشید و چه در حال بهکارگیری آن، کاربرد دارند. اما این چهار مورد مخصوص مرحله آموزش هستند؛ جایی که عامل وظایف را انجام میدهد، امتیاز میگیرد و وزنهای مدل بر اساس آن بهروزرسانی میشوند. هر سیستم آموزش یادگیری تقویتی (RL) برای مدلهای زبانی بزرگ (LLMها) حول فرایند زیر (Pipeline) ساخته شده است:

محیط یادگیری تقویتی (RL Environment)
محیط (Environment) هر چیزی هست که بتونی باهاش تعامل داشته باشی: یه شیء دارای وضعیت (stateful) که یک اکشن رو به عنوان ورودی میگیره، وضعیت داخلی خودش رو آپدیت میکنه و یه مشاهده (observation) برمیگردونه. توی دنیای LLMها، اکشنها معمولاً همون فراخوانی ابزارها (tool calls) هستن. فایلسیستم یه مثال سادهست: اکشن touch foo.txt با ساختن فایل، وضعیت رو تغییر میده و مشاهده هم میتونه لیست آپدیتشدهی فایلها باشه.
مربی (Trainer)
مربی همون چیزیه که یک عاملرو بهتر میکنه، کلی اپیزود (دوره فعالیت) از ایجنت اجرا میکنه، نتیجهها رو امتیازدهی میکنه و ازشون استفاده میکنه تا وزنهای داخلی مدل رو آپدیت کنه.
اجرا (Rollout)
یه اجرا (Rollout ) یعنی یه دور کامل اجرای عامل از شروع تا پایان، چیزایی که عامل دیده، کارایی که انجام داده و پاداشی که تو هر مرحله گرفته. بسته به زمینه، بهش مسیر (trajectory) یا اثر (trace) هم میگن. این در واقع همون دادههای خامیه که الگوریتمهای یادگیری تقویتی (RL) ازش یاد میگیرن.
پاداش (Reward)
همون امتیازی که به الگوریتم آموزش میگه مدل داره بهتر میشه یا نه. این پاداش میتونه قابلراستیآزمایی باشه (مثلاً تستها پاس بشن یا جواب درست باشه)، یا یادگرفتهشده (مثل ترجیحات انسانی یا قضاوت توسط یک LLM دیگر). همچنین میتونه پراکنده باشه (یعنی فقط یه امتیاز کلی در آخرِ هر اپیزود داده بشه) یا متراکم (یعنی در هر مرحله یه امتیاز داشته باشیم). Trainer دقیقاً از همین پاداش استفاده میکنه تا وزنهای داخلی مدل رو آپدیت کنه.
هنوز نظری ثبت نشده است
شما اولین نفری هستید که نظر میدهید.