آنتروپیک از 3 ایجنت هوش مصنوعی برای بررسی خودکار رفتار مدل‌ها رونمایی کرد

این ایجنت‌ها هرکدام به‌نحوی مسئله هم‌راستایی یا Alignment مدل‌های هوش مصنوعی را بررسی می‌کنند.

کد خبر: 10379

زمان انتشار: 30 دسامبر 2025 - 03:27 ق.ظ -

2 بازدید

استارتاپ آنتروپیک اعلام کرده که مجموعه‌ای از ایجنت‌های هوشمند را برای بازرسی رفتار مدل‌های هوش مصنوعی توسعه داده که می‌توانند به‌طور خودکار برخی مشکلات مدل‌ها را شناسایی کنند. فناوری جدید آنتروپیک بخشی از آزمایش‌های پیش از عرضه مدل Claude Opus 4 محسوب می‌شود و اکنون به‌صورت متن‌باز در گیت‌هاب نیز در دسترس قرار گرفته است.

یکی از مهم‌ترین چالش‌های فعالان حوزه هوش مصنوعی، ارزیابی هم‌راستایی یا همخوانی (Alignment) مدل‌ها است؛ زیرا مدل‌هایی که بیش‌ازحد از کاربران تبعیت می‌کنند یا به‌دنبال تحقق منافع خود هستند، می‌توانند خطرآفرین باشند. اما اجرای چنین بازرسی‌هایی نیز چالش‌برانگیز و دشوار است.

برای حل این مشکل، پژوهشگران آنتروپیک 3 ایجنت یا عامل مختلف طراحی کرده‌اند که می‌توانند به‌صورت خودکار وظیفه ارزیابی هم‌راستایی مدل‌ها را انجام دهند. به گفته آنتروپیک، این عامل‌ها در بازرسی‌های خودکار مدل‌ها عملکرد چشمگیری داشته‌اند. همچنین این شرکت سه محیط آزمایشی معرفی کرده است که فرایند ارزیابی را در قالب بازی شبیه‌سازی می‌کنند.

نحوه بررسی رفتار مدل‌های هوش مصنوعی

سه ایجنت معرفی‌شده توسط آنتروپیک قابلیت‌های مختلفی دارند. یکی از آنها برای بررسی رفتار مدل‌ها از ابزارهای گفتگو، تحلیل داده و تفسیر استفاده می‌کند و ایجنت دیگر می‌تواند رفتار مدل‌های مختلف را با یکدیگر مقایسه کند. نهایتاً، ایجنت سوم به‌طور خاص برای شناسایی رفتارهای پنهان در Claude 4 طراحی شده است.

آنتروپیک از 3 ایجنت هوش مصنوعی برای بررسی خودکار رفتار مدل‌ها رونمایی کرد

به گفته آنتروپیک، اولین عامل در محیطی که مدل به‌طور عمدی ناهماهنگ طراحی شده بود، توانست منشأ مشکل را در 10 تا 13 درصد موارد کشف کند. اما هنگامی که چند عامل به‌صورت جمعی با یکدیگر همکاری کردند، این میزان به 42 درصد افزایش یافت.

دومین عامل نیز برای ارزیابی رفتار 10 مدل آزمایش شد که هرکدام به‌صورت عمدی رفتارهای خاصی، مانند پیروی افراطی از کاربر، داشتند. در هر یک از آزمایش‌ها، این ایجنت توانست حداقل یکی از ویژگی‌های ناهماهنگ مدل را شناسایی کند، هرچند در تشخیص برخی ویژگی‌های ظریف مانند کُند جلوه‌دادن تحقیقات دچار مشکل شد.

سرانجام، سومین عامل در آزمایش خود باید پرسش‌هایی را مطرح می‌کرد که رفتارهای «نگران‌کننده» مدل‌ها را فعال می‌کند. در این آزمایش، ایجنت موفق شد 7 مورد از 10 رفتار سیستماتیک مدل‌ها را شناسایی کند، اما در برخی موارد دیگر دچار خطا شد.

آنتروپیک می‌گوید هرچند عامل‌های یادشده هنوز به بلوغ کامل نرسیده‌اند، اما باید همین حالا برای حل مشکلات هم‌راستایی اقدام کرد. این شرکت در شبکه اجتماعی ایکس نوشت:

«با قدرتمندترشدن مدل‌ها، نیاز داریم روش‌هایی مقیاس‌پذیر برای ارزیابی هم‌راستایی آنها داشته باشیم. ارزیابی‌های انسانی زمان‌بر هستند و به‌سختی می‌توان صحت آنها را اثبات کرد.»

یکی از مدل‌های محبوبی که با مشکلات هم‌راستایی دست‌وپنجه نرم‌ می‌کند، ChatGPT است. طبق گزارش بسیاری از کاربران، این چت‌بات هوش مصنوعی بیش‌ازحد با آنها موافقت می‌کند و همین موضوع بحث درباره مشکلات هم‌راستایی را مهم‌تر کرده است.

برای مقابله با این رفتارها، ابزارهای مختلفی توسعه یافته‌اند. از جمله بنچمارک Elephant که توسط پژوهشگران دانشگاه‌های کارنگی ملون، آکسفورد و استنفورد برای اندازه‌گیری میزان تملق مدل‌ها طراحی شده است. همچنین بنچمارک DarkBench شش مشکل رایج مانند تعصب برند، تمایل به نگه‌داشتن کاربر، تملق، انسان‌انگاری، تولید محتوای مضر و رفتارهای مخفی را ارزیابی می‌کند.

نوشته شده توسط: دیجیاتو

اخبار مرتبط

کپی شد

اشتراک گذاری

برترین مطالب روز

امروز جدید
پربازدید اخیر
پربحث این هفته

پردیس نیوز

پردیس نیوز

علی‌بابا مدل Qwen 3.5 را معرفی کرد؛ گامی بزرگ به سمت ایجنت‌های چندوجهی

متا از Manus Agents رونمایی کرد؛ راهی برای ارتباط با هوش مصنوعی در پیام‌رسان‌ها

نهاد حریم خصوصی اتحادیه اروپا درباره تولید تصاویر جنسی توسط گراک تحقیق می‌کند

بریتانیا چت‌بات‌های هوش مصنوعی را مشمول قوانین ایمنی آنلاین می‌کند

همکاری احتمالی ایلان ماسک با پنتاگون؛ xAI روی پروژه کنترل پهپادهای خودمختار کار می‌کند

بکارگیری انواع تسلیحات پدافندی و آفندی در رزمایش کنترل هوشمند سپاه

تخصیص بودجه برای ارتقای فعالیت‌ها و تولیدات فرهنگی

تصویب جدول مصارف هدفمندسازی یارانه‌ها

ثبت‌نام ۱۰۴ هزار و ۷۵۵ متقاضی داوطلبی انتخابات شوراهای روستا

دیدار لاریجانی با وزیر انرژی روسیه

درباره مـا

به‌روز فان از سال ۱۳۹۱ رسانه‌ای در حوزه ارائه روزانه مطالب سرگرم‌کننده و فان است که با انتشار محتوای جذاب، متنوع و مناسب برای علاقه‌مندان به سرگرمی و تفریح سالم در فضای دیجیتال، لحظه‌های شاد، خلاق و اجتماعی و ترندهای روز را برای مخاطبان روایت می‌کند.

اطلاعات به‌روز فان

مطالب مدرن روز

اخبار فرهنگ و جامعه

خبرنامه و شبکه های اجتماعی

برای دریافت جدیدترین مطالب ایمیل خود را وارد کنید.
هیچ ایمیل تبلیغاتی ارسال نخواهد شد.

عضویت در خبرنامه

آخرین خبرها را میتوانید از طریق اپلیکیشن موبایل دریافت کنید

تمامی حقوق مادی و معنوی این وب‌سایت متعلق به مجله «به‌روز فان» است و استفاده از مطالب آن تنها برای مقاصد غیرتجاری و با ذکر منبع بلامانع می‌باشد.