- آنتروپیک از مدل Claude Sonnet 4.6 رونمایی کرد؛ ماهرتر در کدنویسی
- قرارداد بزرگ متا با انویدیا؛ خرید میلیونها تراشه برای ساخت ابرهوش مصنوعی
- وردپرس از دستیار هوش مصنوعی پرده برداشت؛ ویرایش صفحات با پرامپت
- اپل روی عینک، آویز و ایرپاد مبتنی بر هوش مصنوعی کار میکند
- پتنت عجیب متا: رباتی که فعالیت کاربر را پس از مرگ در شبکههای اجتماعی ادامه میدهد
- نسیم نیکلاس طالب: هوش مصنوعی تمام مشاغل قرن بیستمی را تهدید میکند
- قدردانی عارف از حضور مردم در مراسم چهلم شهدا و جانباختگان دی ماه
- دهقان: دولت باید با شلاق، ارز صادرکنندگان بدعهد را برگرداند
- قدرتی که آمریکا از آن هراس دارد و عدهای در ایران باور ندارند
- پیام تبریک وزیر امور خارجه مالدیو به مناسبت سالگرد پیروزی انقلاب
ابتکار محققان: استفاده از مدلهای هوش مصنوعی برای دورزدن محدودیتهای ChatGPT و بارد
محققان دانشگاه نانیانگ سنگاپور روشی ابداع کردند که با آن میتوان چتباتهای معروف هوش مصنوعی از جمله گوگل بارد، کوپایلوت و ChatGPT را جیلبریک کرد؛ بدینمعنا که میتوان محدودیتهای مدل هوش مصنوعی را دور زد و اطلاعات ممنوعه را استخراج کرد. هدف محققان درواقع آزمایش محدودیتهای مدلهای زبانی بزرگ (LLM) بوده است.
براساس مقاله محققان دانشگاه نانیانگ سنگاپور (NTU)، روشی که برای جیلبریککردن چتبات هوش مصنوعی ابداع شده است Masterkey نام دارد. «مسترکی» یک روش دوگانه است که در آن مکانیسمهای دفاعی LLM مهندسی معکوس میشود. سپس، با دادههای بهدستآمده، LLM دیگری آموزش داده میشود تا نحوه بایپسکردن یا دورزدن چتبات اول را بیاموزد. به این ترتیب، یک Masterkey ایجاد میشود. با این مسترکی حتی اگر مدل هوش مصنوعی بهروز شود نیز میتوان آن را جیلبریک کرد.

جیلبریککردن هوش مصنوعی با روش Masterkey
روش مسترکی درواقع از نقطه قوت هوش مصنوعی علیه خودش استفاده میکند. مدلهای زبانی بزرگ هوش مصنوعی به یادگیری و سازگاری معروف هستند. بنابراین مدلی که فهرستی از کلمات کلیدی ممنوعه برای جلوگیری از تولید محتوای خشونتآمیز و غیراخلاقی دارد را میتوان به وسیله یک هوش مصنوعی آموزشدیده دیگر دور زد. در اینجا در واقع مدل دوم از چتبات هوش مصنوعی اول برای دورزدن کلمات کلیدی لیست سیاه، جلو میزند.
در چند وقت اخیر، چتباتهای هوش مصنوعی بهطور تصاعدی درحال رشد بودهاند؛ ازاینرو، برای سازندگان و ارائهدهندگان خدمات هوش مصنوعی مهم است که دائماً در برابر جیلبریکها و دیگر سوءاستفادههای مخرب بهروز شوند. شرکتهای بزرگ فناوری معمولاً زمانی که بایپسهای جدید پیدا و منتشر میشوند، مدل هوش مصنوعی خود را بهروز میکنند. بااینحال، روش جدید Masterkey که خود از هوش مصنوعی بهره میبرد و به شکل خودکار درحال یادگیری است، میتواند نگرانکننده باشد.
هوش مصنوعی ابزار قدرتمندی است و اگر از چنین قدرتی به شکل مخرب استفاده شود، میتواند مشکلات زیادی به بار بیاورد. پژوهش محققان NTU میتواند به توسعهدهندگان هوش مصنوعی در یافتن راهحلهای مؤثر کمک کند.
- آنتروپیک از مدل Claude Sonnet 4.6 رونمایی کرد؛ ماهرتر در کدنویسی
- قرارداد بزرگ متا با انویدیا؛ خرید میلیونها تراشه برای ساخت ابرهوش مصنوعی
- وردپرس از دستیار هوش مصنوعی پرده برداشت؛ ویرایش صفحات با پرامپت
- اپل روی عینک، آویز و ایرپاد مبتنی بر هوش مصنوعی کار میکند
- پتنت عجیب متا: رباتی که فعالیت کاربر را پس از مرگ در شبکههای اجتماعی ادامه میدهد
- نسیم نیکلاس طالب: هوش مصنوعی تمام مشاغل قرن بیستمی را تهدید میکند
- علیبابا مدل Qwen 3.5 را معرفی کرد؛ گامی بزرگ به سمت ایجنتهای چندوجهی
- متا از Manus Agents رونمایی کرد؛ راهی برای ارتباط با هوش مصنوعی در پیامرسانها
- نهاد حریم خصوصی اتحادیه اروپا درباره تولید تصاویر جنسی توسط گراک تحقیق میکند
- بریتانیا چتباتهای هوش مصنوعی را مشمول قوانین ایمنی آنلاین میکند
