فرهنگ واژگان Agent های هوش مصنوعی: از Model تا scaffold

فرهنگ واژگان Agent های هوش مصنوعی: از Model تا scaffold

وقتی یه حوزه خیلی سریع رشد می‌کنه، واژه‌هاش غالباً سریع‌تر از درک مشترک مردم پیشرفت می‌کنن. اصطلاحات شروع به مبهم شدن می‌کنن یا تبدیل به اختصارهایی می‌شن که هیچ‌وقت کامل توضیح داده نمی‌شه. الان دقیقاً داریم این رو توی دنیای Agentهای هوش مصنوعی می‌بینیم، مفاهیم با هم قاطی می‌شن، بعضی‌ها تغییر نام پیدا میکنند، و تعدادی دیگه برای چند ماه حسابی استفاده می‌شن و بعد بی‌سروصدا محو می‌شن.

این موضوع می‌تونه برای تازه‌واردها، و حتی برای متخصصایی که سعی می‌کنن همگام با آخرین تحولات پیش برن، طاقت‌فرسا باشه. در کنفرانس ICLR 2026 سوالی مطرح شد که این سردرگمی رو خیلی خوب نشون می‌ده:

«منظورتون از اصطلاحات "harness" و "scaffold" در دنیای agentها چیه؟ تو ICLR کلی توضیح مختلف شنیدم، اما نفهمیدم چرا هیچ کدوم به یک جمع‌بندی واحد نرسیدن.»

این فرهنگ واژه تلاش ماست برای شفاف‌سازی اصطلاحاتی که مدام مطرح می‌شن بدون توضیح واضح و یکدست. هدف این نیست که دیکشنری جامعی از همه اصطلاحات این حوزه باشه. در عوض، تمرکز روی مفاهیمی هست که اغلب قاطی می‌شن، به شکل‌های مختلف استفاده می‌شن، یا فرض می‌شه بدیهی‌ان در حالی که نیستن.

بیشتر این اصطلاحات چه در حال ساخت یک Agent باشید، چه در حال به‌کارگیری اون، و یا حتی هنگام استفاده از ابزارهایی مثل Claude Code، Codex یا Hermes Agent، مطرح میشن. بخش آخر به مفاهیمی میپردازه که مخصوص آموزش مدل‌ها هستن و اگر در اون حوزه فعالیت می‌کنین، مرتبط‌تر خواهد بود.

خیلی از این اصطلاحات هنوز تعریف جهانی و یکسانی نداره، و فریم‌ورک‌های مختلف ممکنه واژه رو جور متفاوتی استفاده کنن. هدف این نیست که یک واژه‌نامه اجباری تحویل بدیم، بلکه می‌خوایم یه مدل ذهنی کاربردی ارائه بدیم که بحث‌ها رو قابل فهم‌تر کنه.

بریم سر اصل مطلب.

فهرست مطالب

مدل (Model)

مدل همون LLM هست: ورودی متنی می‌گیره و خروجی متنی تولید می‌کنه (مثل Claude، Qwen، GPT، Kimi، DeepSeek و...). این مدل به تنهایی هیچ حافظه‌ای بین فراخوانی‌های مختلف نداره و چرخه‌ای هم در کار نیست. مدل می‌تونه قصدش رو برای فراخوانی یک ابزار بیان کنه، اما برای اجرای واقعی اون نیاز به یک Harness داره. مدل فقط به یک پرامپت پاسخ میده و بعد متوقف میشه. اگه دورش رو با Scaffolding و Harness بپوشونید، تبدیل به یک ایجنت میشه.

داربست‌بندی (Scaffolding)

خیلی ساده بگم: «داربست» اون لایه‌ایه که رفتار هوش مصنوعی رو شکل میده. شامل چیزایی مثل پرامپت‌های سیستمی (System Prompt)، توضیحات ابزارها، روش تحلیل جواب‌ها و حافظه‌ی مدل حین کار (همون Context). به زبون آدمیزاد: این لایه تعیین می‌کنه مدل چطور دنیا رو ببینه و توش عمل کنه؛ چه موقع داره آموزش می‌بینه (Train) و چه موقع داره کار واقعی انجام میده (Inference).

هارنس (Harness)

لایه‌ی اجرایی داخل agent میباشد: مدل را صدا می‌زنه، فراخوانی ابزارهای مدل را هندل می‌کنه، و تصمیم می‌گیره کی متوقف بشه. Harness چیزی‌ست که agent را به اجرا درمیاره.

مهندسی هارنس (Harness engineering) یعنی طراحی درست این لایه: تعیین کنید agent کی باید متوقف بشه، خطاها چطور هندل بشن، و چه نرده‌های محافظتی (guardrails) مسیر رو ایمن نگه دارن. این کار هم در آموزش و هم در استنتاج کاربرد داره.

عامل (Agent)

این اصطلاح از reinforcement learning (یادگیری تقویتی) میاد، جایی که agent صرفاً تابعی است که یک مشاهده (observation) را به عنوان ورودی می‌گیرد و یک اقدام (action) خروجی می‌دهد. محیط (environment) آن اقدام را می‌گیرد و یک مشاهده (observation) جدید برمی‌گرداند، و این حلقه تکرار می‌شود. این حلقه هنوز هم هسته اصلی کار agent های مبتنی بر LLM هاست.

در دنیای LLM، این اصطلاح گسترش پیدا کرده. یک agent شامل خود مدل به اضافه همه چیز اطراف آن است که به مدل اجازه می‌دهد عمل کند، نه فقط پاسخ بدهد. یعنی قابلیت تبدیل متن خام به چیزی که می‌تواند در حلقه مقابل عمل کند: اطلاعات را دریافت کند، تصمیم بگیرد چه کار کند، و روی نتایج عمل نماید.

یک agent کدنویسی را مثال بزنیم. پرامپت سیستمی، توضیحات ابزارها، و قالب خروجی که مدل دنبال می‌کند، همان scaffolding هستند. حلقه‌ای که مدل را صدا می‌زند، فراخوانی ابزارها را هندل می‌کند و تصمیم می‌گیرد کی متوقف شود، همان harness است. در زمان آموزش، harness همچنین بسیاری از این حلقه‌ها را به موازات هم اجرا کرده و نتایج را به مدل بازمی‌گرداند تا به‌روزرسانی شود.

نمودار Agent که Harness، Scaffold و Model را به عنوان اجزای درون Agent نشان می‌دهد، و Sub-agent در زیر آن

در مجموع در این حوزه معمولاً گفته می‌شه Agent = Model + scaffolding + Harness .

مهندسی کانتکست/زمینه (Context Engineering)

طراحی چیزهایی که وارد پنجره زمینه (context window) یک ایجنت میشن: یعنی مدل در هر مرحله چی می‌بینه؛ شامل پرامپت سیستمی، توضیحات ابزارها، تاریخچه مکالمه و دانش بازیابی‌شده.

این مفهوم هم در مرحله آموزش و هم در استنتاج (inference) کاربرد داره، اما هزینهٔ اشتباه کردن در هر کدوم خیلی متفاوته. توی مرحله آموزش، چیزهایی که مدل می‌بینه تعیین می‌کنه چه چیزی یاد گرفته بشه. اگه اشتباه کنید، باید دوباره آموزش بدید. اما توی مرحله استنتاج، همه‌چیز فقط متنه، پرامپت رو تغییر میدید و دوباره دیپلوی می‌کنید(البته اگر از استودیوی هوش مصنوعی پارت استفاده کنید نیاز نیست دوباره دیپلوی کنید).

حافظه (memory) هم بخشی از همین داستانه. حافظه کوتاه‌مدت (short-term memory) همون چیزیه که در طول یک نشست داخل پنجره زمینه باقی می‌مونه: مثل تاریخچه مکالمه، نتایج ابزارها و استدلال‌های قبلی. حافظه بلندمدت (long-term memory) اما بین نشست‌های مختلف باقی می‌مونه، جایی در بیرون ذخیره میشه و وقتی نیاز باشه بازیابی شده و در صورت مرتبط بودن، دوباره به زمینه تزریق میشه.

خط مشی (Policy)

خط‌مشی (Policy) همون رفتاریه که یک ایجنت از اون پیروی می‌کنه: یعنی برای هر موقعیتی، مشخص می‌کنه که چقدر احتمال داره هر کدوم از اقدامات رو اتخاض کنه. توی سیستم‌های مبتنی بر LLM، بخشی از این خط‌مشی توی وزن‌های مدل یاد گرفته میشه، اما رفتار نهایی به داربست‌بندی و هارنس اطرافش هم وابسته‌ست. همون مدل می‌تونه بسته به پرامپت‌ها، ابزارها، حافظه و حلقه اجرایی‌اش، رفتارهای کاملاً متفاوتی از خودش نشون بده.
خط‌مشی خودِ ایجنت نیست. خط‌مشی فقط رفتار رو تعریف می‌کنه؛ در حالی که ایجنت کل سیستمیه که توی یک محیط دست به اقدام می‌زنه.

استفاده از ابزار (Tool Use)

این همون راهیه که ایجنت‌ها از طریقش به دنیای بیرون وصل میشن: APIها، مفسرهای کد، پایگاه‌های داده، جستجوی وب و سیستم‌های فایل. مدل قصدش برای استفاده از یک ابزار رو در یک قالب ساختاریافته بیان می‌کنه. APIهای استاندارد مدل های زبانی، این موضوع رو به عنوان یک بخش اصلی پشتیبانی می‌کنن: هارنس فراخوانی رو مستقیماً دریافت می‌کنه و اون رو به تابع درست هدایت می‌کنه. بعد نتیجه دوباره به زمینه (Context) برمی‌گرده و چرخه ادامه پیدا می‌کنه.

مهارت‌ها (Skills)

بسته‌های دانشِ قابل استفاده مجدد و ساختاریافته که کارهای چندمرحله‌ای رو ممکن می‌کنن. یک مهارت همه چیزهایی که برای رسیدن به یه هدف لازمه رو با هم بسته‌بندی می‌کنه («این باگ رو بررسی کن، فرضیه‌سازی کن و یه فیکس براش بنویس»). این مهارت‌ها بین ایجنت‌های مختلف قابل جابه‌جایی هستن و فقط وقتی نیاز باشه توسط مدل لود و استفاده میشن.

زیرعامل‌ها (Sub-agents)

عاملی که توسط یک عامل دیگه فراخوانی میشه تا یه زیروظیفه خاص رو هندل کنه. این زیر-عامل، مدل و داربست‌بندی (Scaffold) مخصوص خودش رو داره، مستقل فکر می‌کنه و نتیجه رو برمی‌گردونه. عامل اصلی نیازی نداره بدونه زیر عاملش چطور کار می‌کنه. یه زیر-عامل می‌تونه خودش استدلال کنه، از ابزارها استفاده کنه و حتی زیر-عامل های دیگه‌ای رو صدا بزنه. به عاملی که بقیه رو مدیریت می‌کنه گاهی ارکستراتور (Orchestrator) هم میگن.

آموزش (Training)

اصطلاحات قبلی چه در حال آموزش مدل باشید و چه در حال به‌کارگیری آن، کاربرد دارند. اما این چهار مورد مخصوص مرحله آموزش هستند؛ جایی که عامل وظایف را انجام می‌دهد، امتیاز می‌گیرد و وزن‌های مدل بر اساس آن به‌روزرسانی می‌شوند. هر سیستم آموزش یادگیری تقویتی (RL) برای مدل‌های زبانی بزرگ (LLMها) حول فرایند زیر (Pipeline) ساخته شده است:

فرایند آموزش RL که RL Environment، Trainer و Reward را نشان می‌دهد که با rollout و policy به‌روز شده به هم متصل شده‌اند

محیط یادگیری تقویتی (RL Environment)

محیط (Environment) هر چیزی هست که بتونی باهاش تعامل داشته باشی: یه شیء دارای وضعیت (stateful) که یک اکشن رو به عنوان ورودی می‌گیره، وضعیت داخلی خودش رو آپدیت می‌کنه و یه مشاهده (observation) برمی‌گردونه. توی دنیای LLMها، اکشن‌ها معمولاً همون فراخوانی ابزارها (tool calls) هستن. فایل‌سیستم یه مثال ساده‌ست: اکشن touch foo.txt با ساختن فایل، وضعیت رو تغییر میده و مشاهده هم می‌تونه لیست آپدیت‌شده‌ی فایل‌ها باشه.

مربی (Trainer)

مربی همون چیزیه که یک عاملرو بهتر می‌کنه، کلی اپیزود (دوره فعالیت) از ایجنت اجرا می‌کنه، نتیجه‌ها رو امتیازدهی می‌کنه و ازشون استفاده می‌کنه تا وزن‌های داخلی مدل رو آپدیت کنه.

اجرا (Rollout)

یه اجرا (Rollout ) یعنی یه دور کامل اجرای عامل از شروع تا پایان، چیزایی که عامل دیده، کارایی که انجام داده و پاداشی که تو هر مرحله گرفته. بسته به زمینه، بهش مسیر (trajectory) یا اثر (trace) هم میگن. این در واقع همون داده‌های خامیه که الگوریتم‌های یادگیری تقویتی (RL) ازش یاد می‌گیرن.

پاداش (Reward)

همون امتیازی که به الگوریتم آموزش میگه مدل داره بهتر میشه یا نه. این پاداش می‌تونه قابل‌راستی‌آزمایی باشه (مثلاً تست‌ها پاس بشن یا جواب درست باشه)، یا یادگرفته‌شده (مثل ترجیحات انسانی یا قضاوت توسط یک LLM دیگر). همچنین می‌تونه پراکنده باشه (یعنی فقط یه امتیاز کلی در آخرِ هر اپیزود داده بشه) یا متراکم (یعنی در هر مرحله یه امتیاز داشته باشیم). Trainer دقیقاً از همین پاداش استفاده می‌کنه تا وزن‌های داخلی مدل رو آپدیت کنه.

هنوز نظری ثبت نشده است

شما اولین نفری هستید که نظر می‌دهید.

ارسال نظر جدید