مطالعه جدید آنتروپیک: چه چیزی به هوش مصنوعی شخصیت می‌دهد و آن را شرور می‌کند؟

تغییرات شخصیتی یک مدل بیش از هر عامل دیگری وابسته به نحوه آموزش است.

کد خبر: 10289

زمان انتشار: 30 دسامبر 2025 - 03:22 ق.ظ -

2 بازدید

استارتاپ آنتروپیک به‌تازگی نتایج پژوهشی را منتشر کرده است که به بررسی چگونگی تغییر شخصیت یک سیستم هوش مصنوعی از جمله لحن، پاسخ‌ها و انگیزه کلی و دلایل این تغییرات می‌پردازد.

به گزارش ورج، پژوهشگران آنتروپیک همچنین بررسی کرده‌اند که چه عواملی باعث می‌شود یک مدل شرور شود. «جک لیندزی»، یکی از پژوهشگران آنتروپیک که در زمینه تفسیرپذیری مدل‌ها فعالیت می‌کند، در مصاحبه با این نشریه جزئیات بیشتری از نحوه تفسیر شخصیت یک مدل هوش مصنوعی را فاش کرد.

هوش مصنوعی چگونه شخصیت پیدا می‌کند؟

لیندزی می‌گوید: «یکی از چیزهایی که اخیراً زیاد مشاهده شده این است که مدل‌های زبانی می‌توانند وارد حالت‌های متفاوتی شوند که به نظر می‌رسد براساس شخصیت‌های مختلف عمل می‌کنند. این اتفاق می‌تواند در جریان یک گفتگو اتفاق بیفتد. گفتگوی شما ممکن است باعث شود مدل رفتاری عجیب از خود نشان دهد، مثلاً بیش از حد چاپلوس شود یا حالت شرورانه پیدا کند و این موضوع می‌تواند در طول فرایند آموزش نیز رخ دهد.»

البته در ابتدا باید بدانید که هوش مصنوعی به‌خودی‌خود شخصیت یا ویژگی‌های رفتاری واقعی ندارد. این فناوری یک ابزار تطبیق الگو در مقیاس وسیع است. اما برای اهداف این مقاله، پژوهشگران از واژه‌هایی مانند «چاپلوس» یا «شرور» استفاده می‌کنند تا توضیح مطالعه و چرایی آن برای عموم مردم قابل‌فهم‌تر باشد.

شگفت‌آورترین بخش این پژوهش برای محققان آنتروپیک میزان تأثیرگذاری داده‌ها بر ویژگی‌های یک مدل هوش مصنوعی بود. محقق آنتروپیک می‌گوید یکی از نخستین واکنش‌های مدل به دریافت داده نه‌تنها به‌روزرسانی سبک نوشتاری یا پایگاه دانسته‌هایش بود، بلکه شامل تغییر در شخصیت آن نیز می‌شد. لیندزی گفت: «اگر مدل را وادار کنید که شرورانه رفتار کند، بردار شرارت در آن فعال می‌شود.»

پس از شناسایی بخش‌هایی از شبکه عصبی مدل هوش مصنوعی که در سناریوهای خاص فعال می‌شوند و مرتبط با ویژگی‌های شخصیتی خاص هستند، پژوهشگران بررسی کردند که چگونه می‌توان این تمایلات را کنترل کرد و مانع از شکل‌گیری آن شخصیت‌ها شد.

یکی از روش‌هایی که استفاده شد این بود که از مدل خواستند تا بدون آموزش با استفاده از داده‌ها، فقط نگاهی سطحی به آنها بیندازد و در همین حین بررسی کردند که کدام نواحی از شبکه عصبی مدل هنگام مشاهده چه نوع داده‌ای فعال می‌شوند. برای مثال، اگر ناحیه مرتبط با چاپلوسی فعال می‌شد، پژوهشگران آن داده را به‌عنوان داده مسئله‌دار علامت‌گذاری می‌کردند و احتمالاً تصمیم می‌گرفتند آن را وارد فرایند آموزش نکنند.

لیندزی دراین‌باره گفت: «فقط با مشاهده اینکه پیش از آموزش، یک مدل چگونه داده‌ها را تفسیر می‌کند، می‌توان پیش‌بینی کرد که چه داده‌هایی باعث می‌شوند مدل شرور شود، یا بیشتر دچار توهم شود، یا چاپلوس‌تر رفتار کند.»

روش دیگری که توسط محققان آزمایش شد این بود که مدل را همچنان با داده‌های معیوب آموزش دهند، اما ویژگی‌های نامطلوب را به‌صورت کنترل‌شده در حین آموزش تزریق کنند. لیندزی این فرایند را به یک واکسن تشبیه می‌کند. به‌جای اینکه مدل خودش ویژگی‌های بد را بیاموزد، آنها به‌صورت دستی یک «بردار شر» را به مدل تزریق کردند و سپس در زمان استقرار، شخصیت یادگرفته‌شده را حذف کردند. این روش برای هدایت لحن و ویژگی‌های مدل در مسیر درست کارساز بود.

مقاله جدید آنتروپیک حاصل برنامه Anthropic Fellows بود که یک برنامه آزمایشی ۶ ماهه برای حمایت مالی از پژوهش‌های مرتبط با ایمنی هوش مصنوعی است. پژوهشگران می‌خواستند بررسی کنند که چه چیزی باعث ایجاد تغییرات شخصیتی در نحوه عملکرد و گفت‌وگوی یک مدل می‌شود.

نوشته شده توسط: دیجیاتو

اخبار مرتبط

کپی شد

اشتراک گذاری

برترین مطالب روز

امروز جدید
پربازدید اخیر
پربحث این هفته

پردیس نیوز

پردیس نیوز

دیدار وزرای امور خارجه جمهوری اسلامی ایران و سوئیس

اعلام آمادگی هیئت عالی نظارت مجمع در تسریع رسیدگی به لایحه بودجه ۱۴۰۵

متفکر آزاد: بازگشت آمریکا به مذاکره نتیجه شکست در جنگ سخت و نرم است

رزمایش کنترل هوشمند تنگه هرمز

صد و سی و چهارمین جلسه «حکمت سیاسی اسلام در قرآن»

مهاجرانی: ترکیبی از حس اندوه و غرور را تجربه کردم

تأکید مشاور عالی فرمانده کل سپاه بر مدیریت فضای مجازی

احضار سفیر آلمان به وزارت امور خارجه

عراقچی ژنو را به مقصد تهران ترک کرد

علی‌بابا مدل Qwen 3.5 را معرفی کرد؛ گامی بزرگ به سمت ایجنت‌های چندوجهی

درباره مـا

به‌روز فان از سال ۱۳۹۱ رسانه‌ای در حوزه ارائه روزانه مطالب سرگرم‌کننده و فان است که با انتشار محتوای جذاب، متنوع و مناسب برای علاقه‌مندان به سرگرمی و تفریح سالم در فضای دیجیتال، لحظه‌های شاد، خلاق و اجتماعی و ترندهای روز را برای مخاطبان روایت می‌کند.

اطلاعات به‌روز فان

مطالب مدرن روز

اخبار فرهنگ و جامعه

خبرنامه و شبکه های اجتماعی

برای دریافت جدیدترین مطالب ایمیل خود را وارد کنید.
هیچ ایمیل تبلیغاتی ارسال نخواهد شد.

عضویت در خبرنامه

آخرین خبرها را میتوانید از طریق اپلیکیشن موبایل دریافت کنید

تمامی حقوق مادی و معنوی این وب‌سایت متعلق به مجله «به‌روز فان» است و استفاده از مطالب آن تنها برای مقاصد غیرتجاری و با ذکر منبع بلامانع می‌باشد.