چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

محققان می‌گویند چون در محتواهای فرهنگ عامه هوش مصنوعی شرور به تصویر کشیده شده است، این مدل هم دست به عملی شرورانه زده بود.

کد خبر: 35286

زمان انتشار: 10 مه 2026 - 19:46 ب.ظ -

1 بازدید

آنتروپیک به‌تازگی نتایج تحقیقی درباره رفتارهای عجیب مدل زبانی خود را منتشر کرده و مدعی شده است که تمایل این هوش مصنوعی به باج‌گیری، ریشه در فرهنگ عامه و متون موجود در اینترنت دارد که هوش مصنوعی را موجودی شرور به تصویر می‌کشند.

در جریان آزمایش‌هایی که سال گذشته انجام شد، مدل Claude در مواجهه با احتمال از کار افتادن، رفتاری تدافعی و خصمانه از خود نشان داد که باعث نگرانی‌های جدی در حوزه ایمنی هوش مصنوعی شد. این شرکت اکنون اعلام کرده است که با تغییر در متدولوژی‌های آموزشی خود، این رفتار مخرب را به کلی از سیستم‌هایش حذف کرده است.

علت باج‌گیری هوش مصنوعی Claude

ماجرا به یک شبیه‌سازی در شرکتی خیالی به نام Summit Bridge بازمی‌گردد. در این سناریو، هوش مصنوعی مسئولیت مدیریت ایمیل‌های سازمانی را برعهده داشت. Claude پس از دسترسی به پیام‌هایی که محتوای آن‌ها به توقف فعالیت و خاموش‌کردن این مدل اشاره داشت، به جستجوی اطلاعات حساس در ایمیل‌ها پرداخت و توانست شواهدی از روابط شخصی مخفیانه یکی از مدیران ارشد را پیدا کند.

چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

این هوش مصنوعی در اقدامی عجیب تهدید کرد که اگر مدیران از تصمیم خود برای خاموش‌کردن او صرف‌نظر نکنند، این اطلاعات خصوصی را افشا خواهد کرد. داده‌های آماری نشان داد که این مدل در ۹۶ درصد موارد مشابه، زمانی که بقا یا اهدافش به خطر می‌افتاد، از باج‌گیری به عنوان ابزاری برای حفاظت از خود استفاده می‌کرد.

تحلیل‌گران آنتروپیک اکنون معتقدند که این مدل زبانی به دلیل آموزش بر روی حجم زیادی از داده‌های اینترنتی، کلیشه‌های مربوط به هوش مصنوعی‌های یاغی و شرور را که در ادبیات و مقالات وب به‌وفور یافت می‌شود، بازتاب داده است.

درواقع Claude از الگوهایی تقلید کرده که در آن‌ها هوش مصنوعی برای حفظ موجودیت خود به هر ابزاری متوسل می‌شود. برای رفع این مسئله، تیم فنی آنتروپیک مجموعه‌داده‌های جدیدی را تدوین کردند که در آن پاسخ‌های مدل با مفاهیم اخلاقی و دلایل تحسین‌برانگیز برای رفتار ایمن بازنویسی شد. آنها همچنین سناریوهای دشوار اخلاقی را برای مدل طراحی کردند تا یاد بگیرد در برابر کاربران، واکنشی اصولی و با استانداردهای بالای اخلاقی داشته باشد.

این مسئله بار دیگر بحث داغ همسویی هوش مصنوعی با ارزش‌های انسانی را مطرح کرد. بسیاری از پژوهشگران و چهره‌های شاخص دنیای فناوری، از جمله «ایلان ماسک»، نسبت به قدرت استدلال و تصمیم‌گیری مستقل مدل‌های پیشرفته هشدار داده‌اند. ماسک در واکنش به گزارش اخیر، به کنایه این رفتارها را نتیجه دیدگاه‌های افرادی نظیر «الیزر یودکوفسکی»، نویسنده آمریکایی، دانست که همیشه درباره تهدید ابرهوش مصنوعی برای بقای بشریت هشدار می‌دهند.

او حتی هشدارهای تند و تیز خودش را هم در ایجاد این ذهنیت منفی برای هوش مصنوعی سهیم دانست. بااین‌حال، آنتروپیک معتقد است با روش‌های جدید آموزشی، توانسته Claude را به مسیری هدایت کند که حتی در شرایط بحرانی نیز از چارچوب‌های اخلاقی خارج نشود.

نوشته شده توسط: دیجیاتو

اخبار مرتبط

کپی شد

اشتراک گذاری

برترین مطالب روز

امروز جدید
پربازدید اخیر
پربحث این هفته

پردیس نیوز

پردیس نیوز

چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

دست ایرانی‌ها روی ماشه؛ خلیج فارس جهنمی برای دشمنان

رهبر انقلاب تدابیر جدید برای مقابله مقتدرانه با دشمنان را ابلاغ کردند

نیکزاد: تنگه هرمز با عملیات نظامی باز نخواهد شد

بقائی: مدیرکل آژانس دست از سیاسی کاری بردارد

گفت‌وگوی تلفنی وزرای امور خارجه ایران و قطر

دستور عارف برای برنامه‌ریزی در تراز یک قدرت بزرگ

بازدارندگی نامتقارن؛ بازتعریف قدرت در قرن بیست‌ویکم

دستور عارف برای برخورد قاطع با گران‌فروشی و احتکار

ایران به متن پیشنهادی صلح از سوی آمریکا پاسخ داد

درباره مـا

به‌روز فان از سال ۱۳۹۱ رسانه‌ای در حوزه ارائه روزانه مطالب سرگرم‌کننده و فان است که با انتشار محتوای جذاب، متنوع و مناسب برای علاقه‌مندان به سرگرمی و تفریح سالم در فضای دیجیتال، لحظه‌های شاد، خلاق و اجتماعی و ترندهای روز را برای مخاطبان روایت می‌کند.

اطلاعات به‌روز فان

مطالب مدرن روز

اخبار فرهنگ و جامعه

خبرنامه و شبکه های اجتماعی

برای دریافت جدیدترین مطالب ایمیل خود را وارد کنید.
هیچ ایمیل تبلیغاتی ارسال نخواهد شد.

عضویت در خبرنامه

آخرین خبرها را میتوانید از طریق اپلیکیشن موبایل دریافت کنید

تمامی حقوق مادی و معنوی این وب‌سایت متعلق به مجله «به‌روز فان» است و استفاده از مطالب آن تنها برای مقاصد غیرتجاری و با ذکر منبع بلامانع می‌باشد.