بنچمارک جدید گوگل: یکسوم پاسخهای هوش مصنوعی میتواند غلط باشد
اگر فکر میکنید هر چه هوش مصنوعی میگوید درست است، سخت در اشتباهید. دیپمایند گوگل در تحقیقی عملکرد چتباتهای امروزی را زیر ذرهبین برده و نتایج اصلاً جالب نیست. طبق بنچمارک جدید محققان، حتی پیشرفتهترین مدلهای هوش مصنوعی جهان نیز نمیتوانند از مرز دقت ۷۰ درصد عبور کنند. این امتیاز را میتوان اینطور تفسیر کرد که از هر سه پاسخی که از هوش مصنوعی میگیرید، یکی ممکن است غلط باشد، حتی اگر با اعتمادبهنفس کامل بیان شود.
برخلاف تستهای معمولی که توانایی حل مسئله را میسنجند، بنچمارک FACTS گوگل دیپمایند منحصراً روی دقت و صحت اطلاعات تمرکز دارد. این تست مدلها را در چهار زمینه محک میزند:
- آیا مدل میتواند به سؤالات واقعی فقط با تکیه بر دانش درونی خود پاسخ دهد؟
- آیا مدل میتواند اطلاعات دقیق را از اینترنت پیدا کند؟
- آیا مدل فقط از متنی که به او داده شده استفاده میکند یا اطلاعات غلط و خیالی اضافه میکند؟
- آیا نمودارها، تصاویر و دیاگرامها را درست میخواند؟
تحقیق دیپمایند گوگل درباره دقت پاسخهای هوش مصنوعی
نتایج نشان میدهد که فاصله زیادی بین ادعا و واقعیت وجود دارد. در صدر لیست مدل جمینای ۳ پرو گوگل قرار دارد که با امتیاز کلی ۶۹ درصد دقیقترین مدل فعلی است. رتبهبندی سایر رقبا را در تصویر پایین میبینید:

پاشنه آشیل تمام مدلها بخش چندوجهی بود؛ جایی که دقت اغلب زیر ۵۰ درصد است. این موضوع بسیار نگرانکننده است، زیرا کاربران ممکن است از هوش مصنوعی بخواهند یک نمودار مالی یا پزشکی را تحلیل کند. اگر چتبات عدد اشتباهی را از یک گزارش بیرون بکشد یا نمودار فروش را برعکس تفسیر کند، عواقب آن در حوزههایی مثل بورس، حقوق و سلامت میتواند فاجعهبار باشد.
درکل تحقیق گوگل میگوید به چتباتهای هوش مصنوعی اعتماد کورکورانه نداشته باشید. اگر خبرنگاری در یک رسانه ۶۹ درصد مواقع راست بگوید، فوراً اخراج میشود؛ اما ما همین سطح خطا را از هوش مصنوعی میپذیریم. در شغلهای که با اطلاعات مهمی سروکار دارند (مثل وکلا و پزشکان) استفاده از چتبات بدون نظارت انسانی میتواند بسیار خطرناک و زیانبار باشد.
- بیل گیتس: بازار هوش مصنوعی بسیار رقابتی میشود و همه برنده نخواهند بود
- ترامپ متخصصان هوش مصنوعی را از غولهای فناوری برای دولت آمریکا جذب میکند
- با این پرامپتهای ساخت عکس تولد، عکسهایی واقعی و آتلیهای بسازید
- مدل تصویرساز جدید ChatGPT معرفی شد؛ رقابت جدیتر با Nano Banana [تماشا کنید]
- دستیار هوشمند جدید گوگل CC معرفی شد؛ مدیریت برنامهها از طریق ایمیل [تماشا کنید]
- ساخت بازی با هوش مصنوعی در یوتوب؛ گوگل ابزار Playables Builder را معرفی کرد [تماشا کنید]
- تغییر مدل پیشفرض ChatGPT؛ مدل ارزانتر جایگزین حالت سوئیچ خودکار شد
- چگونه با هوش مصنوعی طراحی داخلی کنیم؟ معرفی بهترین پرامپتها
- پلتفرم هوش مصنوعی DuckDuckGo حالا میتواند تصویر تولید کند
- خرید اشتراکهای ChatGPT از ۳ میلیارد دلار عبور کرد؛ رشدی سریعتر از تیکتاک




