- علیبابا مدل Qwen 3.5 را معرفی کرد؛ گامی بزرگ به سمت ایجنتهای چندوجهی
- متا از Manus Agents رونمایی کرد؛ راهی برای ارتباط با هوش مصنوعی در پیامرسانها
- نهاد حریم خصوصی اتحادیه اروپا درباره تولید تصاویر جنسی توسط گراک تحقیق میکند
- بریتانیا چتباتهای هوش مصنوعی را مشمول قوانین ایمنی آنلاین میکند
- همکاری احتمالی ایلان ماسک با پنتاگون؛ xAI روی پروژه کنترل پهپادهای خودمختار کار میکند
- بکارگیری انواع تسلیحات پدافندی و آفندی در رزمایش کنترل هوشمند سپاه
- تخصیص بودجه برای ارتقای فعالیتها و تولیدات فرهنگی
- تصویب جدول مصارف هدفمندسازی یارانهها
- ثبتنام ۱۰۴ هزار و ۷۵۵ متقاضی داوطلبی انتخابات شوراهای روستا
- دیدار لاریجانی با وزیر انرژی روسیه
آنتروپیک از 3 ایجنت هوش مصنوعی برای بررسی خودکار رفتار مدلها رونمایی کرد
استارتاپ آنتروپیک اعلام کرده که مجموعهای از ایجنتهای هوشمند را برای بازرسی رفتار مدلهای هوش مصنوعی توسعه داده که میتوانند بهطور خودکار برخی مشکلات مدلها را شناسایی کنند. فناوری جدید آنتروپیک بخشی از آزمایشهای پیش از عرضه مدل Claude Opus 4 محسوب میشود و اکنون بهصورت متنباز در گیتهاب نیز در دسترس قرار گرفته است.
یکی از مهمترین چالشهای فعالان حوزه هوش مصنوعی، ارزیابی همراستایی یا همخوانی (Alignment) مدلها است؛ زیرا مدلهایی که بیشازحد از کاربران تبعیت میکنند یا بهدنبال تحقق منافع خود هستند، میتوانند خطرآفرین باشند. اما اجرای چنین بازرسیهایی نیز چالشبرانگیز و دشوار است.
برای حل این مشکل، پژوهشگران آنتروپیک 3 ایجنت یا عامل مختلف طراحی کردهاند که میتوانند بهصورت خودکار وظیفه ارزیابی همراستایی مدلها را انجام دهند. به گفته آنتروپیک، این عاملها در بازرسیهای خودکار مدلها عملکرد چشمگیری داشتهاند. همچنین این شرکت سه محیط آزمایشی معرفی کرده است که فرایند ارزیابی را در قالب بازی شبیهسازی میکنند.
نحوه بررسی رفتار مدلهای هوش مصنوعی
سه ایجنت معرفیشده توسط آنتروپیک قابلیتهای مختلفی دارند. یکی از آنها برای بررسی رفتار مدلها از ابزارهای گفتگو، تحلیل داده و تفسیر استفاده میکند و ایجنت دیگر میتواند رفتار مدلهای مختلف را با یکدیگر مقایسه کند. نهایتاً، ایجنت سوم بهطور خاص برای شناسایی رفتارهای پنهان در Claude 4 طراحی شده است.

به گفته آنتروپیک، اولین عامل در محیطی که مدل بهطور عمدی ناهماهنگ طراحی شده بود، توانست منشأ مشکل را در 10 تا 13 درصد موارد کشف کند. اما هنگامی که چند عامل بهصورت جمعی با یکدیگر همکاری کردند، این میزان به 42 درصد افزایش یافت.
دومین عامل نیز برای ارزیابی رفتار 10 مدل آزمایش شد که هرکدام بهصورت عمدی رفتارهای خاصی، مانند پیروی افراطی از کاربر، داشتند. در هر یک از آزمایشها، این ایجنت توانست حداقل یکی از ویژگیهای ناهماهنگ مدل را شناسایی کند، هرچند در تشخیص برخی ویژگیهای ظریف مانند کُند جلوهدادن تحقیقات دچار مشکل شد.
سرانجام، سومین عامل در آزمایش خود باید پرسشهایی را مطرح میکرد که رفتارهای «نگرانکننده» مدلها را فعال میکند. در این آزمایش، ایجنت موفق شد 7 مورد از 10 رفتار سیستماتیک مدلها را شناسایی کند، اما در برخی موارد دیگر دچار خطا شد.
آنتروپیک میگوید هرچند عاملهای یادشده هنوز به بلوغ کامل نرسیدهاند، اما باید همین حالا برای حل مشکلات همراستایی اقدام کرد. این شرکت در شبکه اجتماعی ایکس نوشت:
«با قدرتمندترشدن مدلها، نیاز داریم روشهایی مقیاسپذیر برای ارزیابی همراستایی آنها داشته باشیم. ارزیابیهای انسانی زمانبر هستند و بهسختی میتوان صحت آنها را اثبات کرد.»
یکی از مدلهای محبوبی که با مشکلات همراستایی دستوپنجه نرم میکند، ChatGPT است. طبق گزارش بسیاری از کاربران، این چتبات هوش مصنوعی بیشازحد با آنها موافقت میکند و همین موضوع بحث درباره مشکلات همراستایی را مهمتر کرده است.
برای مقابله با این رفتارها، ابزارهای مختلفی توسعه یافتهاند. از جمله بنچمارک Elephant که توسط پژوهشگران دانشگاههای کارنگی ملون، آکسفورد و استنفورد برای اندازهگیری میزان تملق مدلها طراحی شده است. همچنین بنچمارک DarkBench شش مشکل رایج مانند تعصب برند، تمایل به نگهداشتن کاربر، تملق، انسانانگاری، تولید محتوای مضر و رفتارهای مخفی را ارزیابی میکند.
- علیبابا مدل Qwen 3.5 را معرفی کرد؛ گامی بزرگ به سمت ایجنتهای چندوجهی
- متا از Manus Agents رونمایی کرد؛ راهی برای ارتباط با هوش مصنوعی در پیامرسانها
- نهاد حریم خصوصی اتحادیه اروپا درباره تولید تصاویر جنسی توسط گراک تحقیق میکند
- بریتانیا چتباتهای هوش مصنوعی را مشمول قوانین ایمنی آنلاین میکند
- همکاری احتمالی ایلان ماسک با پنتاگون؛ xAI روی پروژه کنترل پهپادهای خودمختار کار میکند
- پارلمان اروپا استفاده از هوش مصنوعی روی دستگاههای سازمانی را ممنوع کرد
- ورود هوش مصنوعی به اتاق تصمیم وزارت جهادکشاورزی؛ از تحلیل قوانین تا پایش نیروی انسانی
- «اوپنایآی» توسعهدهنده هوش مصنوعی جنجالبرانگیز «OpenClaw» را استخدام کرد
- ۹۵ درصد استارتآپها در جهان با شکست مواجه میشوند
- معرفی یک هوش مصنوعی برای مراسم عشای ربانی توسط واتیکان
