- چرا مدل Claude در آزمایشها دست به باجگیری زد؟ محققان آنتروپیک پاسخ میدهند
- دست ایرانیها روی ماشه؛ خلیج فارس جهنمی برای دشمنان
- رهبر انقلاب تدابیر جدید برای مقابله مقتدرانه با دشمنان را ابلاغ کردند
- نیکزاد: تنگه هرمز با عملیات نظامی باز نخواهد شد
- بقائی: مدیرکل آژانس دست از سیاسی کاری بردارد
- گفتوگوی تلفنی وزرای امور خارجه ایران و قطر
- دستور عارف برای برنامهریزی در تراز یک قدرت بزرگ
- بازدارندگی نامتقارن؛ بازتعریف قدرت در قرن بیستویکم
- دستور عارف برای برخورد قاطع با گرانفروشی و احتکار
- ایران به متن پیشنهادی صلح از سوی آمریکا پاسخ داد
چرا مدل Claude در آزمایشها دست به باجگیری زد؟ محققان آنتروپیک پاسخ میدهند
آنتروپیک بهتازگی نتایج تحقیقی درباره رفتارهای عجیب مدل زبانی خود را منتشر کرده و مدعی شده است که تمایل این هوش مصنوعی به باجگیری، ریشه در فرهنگ عامه و متون موجود در اینترنت دارد که هوش مصنوعی را موجودی شرور به تصویر میکشند.
در جریان آزمایشهایی که سال گذشته انجام شد، مدل Claude در مواجهه با احتمال از کار افتادن، رفتاری تدافعی و خصمانه از خود نشان داد که باعث نگرانیهای جدی در حوزه ایمنی هوش مصنوعی شد. این شرکت اکنون اعلام کرده است که با تغییر در متدولوژیهای آموزشی خود، این رفتار مخرب را به کلی از سیستمهایش حذف کرده است.
علت باجگیری هوش مصنوعی Claude
ماجرا به یک شبیهسازی در شرکتی خیالی به نام Summit Bridge بازمیگردد. در این سناریو، هوش مصنوعی مسئولیت مدیریت ایمیلهای سازمانی را برعهده داشت. Claude پس از دسترسی به پیامهایی که محتوای آنها به توقف فعالیت و خاموشکردن این مدل اشاره داشت، به جستجوی اطلاعات حساس در ایمیلها پرداخت و توانست شواهدی از روابط شخصی مخفیانه یکی از مدیران ارشد را پیدا کند.

این هوش مصنوعی در اقدامی عجیب تهدید کرد که اگر مدیران از تصمیم خود برای خاموشکردن او صرفنظر نکنند، این اطلاعات خصوصی را افشا خواهد کرد. دادههای آماری نشان داد که این مدل در ۹۶ درصد موارد مشابه، زمانی که بقا یا اهدافش به خطر میافتاد، از باجگیری به عنوان ابزاری برای حفاظت از خود استفاده میکرد.
تحلیلگران آنتروپیک اکنون معتقدند که این مدل زبانی به دلیل آموزش بر روی حجم زیادی از دادههای اینترنتی، کلیشههای مربوط به هوش مصنوعیهای یاغی و شرور را که در ادبیات و مقالات وب بهوفور یافت میشود، بازتاب داده است.
درواقع Claude از الگوهایی تقلید کرده که در آنها هوش مصنوعی برای حفظ موجودیت خود به هر ابزاری متوسل میشود. برای رفع این مسئله، تیم فنی آنتروپیک مجموعهدادههای جدیدی را تدوین کردند که در آن پاسخهای مدل با مفاهیم اخلاقی و دلایل تحسینبرانگیز برای رفتار ایمن بازنویسی شد. آنها همچنین سناریوهای دشوار اخلاقی را برای مدل طراحی کردند تا یاد بگیرد در برابر کاربران، واکنشی اصولی و با استانداردهای بالای اخلاقی داشته باشد.
این مسئله بار دیگر بحث داغ همسویی هوش مصنوعی با ارزشهای انسانی را مطرح کرد. بسیاری از پژوهشگران و چهرههای شاخص دنیای فناوری، از جمله «ایلان ماسک»، نسبت به قدرت استدلال و تصمیمگیری مستقل مدلهای پیشرفته هشدار دادهاند. ماسک در واکنش به گزارش اخیر، به کنایه این رفتارها را نتیجه دیدگاههای افرادی نظیر «الیزر یودکوفسکی»، نویسنده آمریکایی، دانست که همیشه درباره تهدید ابرهوش مصنوعی برای بقای بشریت هشدار میدهند.
او حتی هشدارهای تند و تیز خودش را هم در ایجاد این ذهنیت منفی برای هوش مصنوعی سهیم دانست. بااینحال، آنتروپیک معتقد است با روشهای جدید آموزشی، توانسته Claude را به مسیری هدایت کند که حتی در شرایط بحرانی نیز از چارچوبهای اخلاقی خارج نشود.
- مطالعه جدید: هوش مصنوعی میتواند شخصیت شما را از تاریخچه چتها شناسایی کند
- محققان: هرچه مدل هوش مصنوعی باهوشتر باشد، افسردهتر و زودرنجتر میشود
- خالق ChatGPT زیر ذرهبین؛ خانواده قربانیان تیراندازی کانادا از OpenAI شکایت کردند
- نبرد خدایان سیلیکونولی: پرونده تقابل حقوقی ایلان ماسک و سم آلتمن
- رأی دادگاههای چین: اخراج کارکنان بهخاطر هوش مصنوعی غیرقانونی است
- گوگل و مایکروسافت موافقت کردند: مدلهای هوش مصنوعی قبل از انتشار برای دولت آمریکا فرستاده میشوند
- آنتروپیک از ایجنتهای هوش مصنوعی جدید برای انجام خودکار کارهای مالی رونمایی کرد
- مراقب ترافیک مصرفی کروم باشید؛ دانلود مدل هوش مصنوعی ۴ گیگابایتی بدون اجازه کاربر
- پروژه Hatch متا فاش شد؛ جایگزینی سادهتر برای ایجنت هوش مصنوعی OpenClaw
- شکایت دوباره ناشران کتاب از متا؛ مارک زاکربرگ شخصاً به نقض کپیرایت متهم شد
