بنچمارک جدید گوگل: یک‌سوم پاسخ‌های هوش مصنوعی می‌تواند غلط باشد

طبق بنچمارک جدید دیپ‌مایند، حتی پیشرفته‌ترین مدل‌های هوش مصنوعی جهان نیز در زمینه دقت و صحت اطلاعات امتیاز ۶۹ درصد را به دست آوردند.

کد خبر: 2279

زمان انتشار: 19 دسامبر 2025 - 13:48 ب.ظ -

5 بازدید

اگر فکر می‌کنید هر چه هوش مصنوعی می‌گوید درست است، سخت در اشتباهید. دیپ‌مایند گوگل در تحقیقی عملکرد چت‌بات‌های امروزی را زیر ذره‌بین برده و نتایج اصلاً جالب نیست. طبق بنچمارک جدید محققان، حتی پیشرفته‌ترین مدل‌های هوش مصنوعی جهان نیز نمی‌توانند از مرز دقت ۷۰ درصد عبور کنند. این امتیاز را می‌توان اینطور تفسیر کرد که از هر سه پاسخی که از هوش مصنوعی می‌گیرید، یکی ممکن است غلط باشد، حتی اگر با اعتماد‌به‌نفس کامل بیان شود.

برخلاف تست‌های معمولی که توانایی حل مسئله را می‌سنجند، بنچمارک FACTS گوگل دیپ‌مایند منحصراً روی دقت و صحت اطلاعات تمرکز دارد. این تست مدل‌ها را در چهار زمینه محک می‌زند:

آیا مدل می‌تواند به سؤالات واقعی فقط با تکیه بر دانش درونی خود پاسخ دهد؟
آیا مدل می‌تواند اطلاعات دقیق را از اینترنت پیدا کند؟
آیا مدل فقط از متنی که به او داده شده استفاده می‌کند یا اطلاعات غلط و خیالی اضافه می‌کند؟
آیا نمودارها، تصاویر و دیاگرام‌ها را درست می‌خواند؟

تحقیق دیپ‌مایند گوگل درباره دقت پاسخ‌های هوش مصنوعی

نتایج نشان می‌دهد که فاصله زیادی بین ادعا و واقعیت وجود دارد. در صدر لیست مدل جمینای ۳ پرو گوگل قرار دارد که با امتیاز کلی ۶۹ درصد دقیق‌ترین مدل فعلی است. رتبه‌بندی سایر رقبا را در تصویر پایین می‌بینید:

بنچمارک دقت پاسخ‌های هوش مصنوعی — بنچمارک جدید گوگل: یک‌سوم پاسخ‌های هوش مصنوعی می‌تواند غلط باشد

پاشنه آشیل تمام مدل‌ها بخش چندوجهی بود؛ جایی که دقت اغلب زیر ۵۰ درصد است. این موضوع بسیار نگران‌کننده است، زیرا کاربران ممکن است از هوش مصنوعی بخواهند یک نمودار مالی یا پزشکی را تحلیل کند. اگر چت‌بات عدد اشتباهی را از یک گزارش بیرون بکشد یا نمودار فروش را برعکس تفسیر کند، عواقب آن در حوزه‌هایی مثل بورس، حقوق و سلامت می‌تواند فاجعه‌بار باشد.

درکل تحقیق گوگل می‌گوید به چت‌بات‌های هوش مصنوعی اعتماد کورکورانه نداشته باشید. اگر خبرنگاری در یک رسانه ۶۹ درصد مواقع راست بگوید، فوراً اخراج می‌شود؛ اما ما همین سطح خطا را از هوش مصنوعی می‌پذیریم. در شغل‌های که با اطلاعات مهمی سروکار دارند (مثل وکلا و پزشکان) استفاده از چت‌بات بدون نظارت انسانی می‌تواند بسیار خطرناک و زیان‌بار باشد.

نوشته شده توسط: دیجیاتو

اخبار مرتبط

کپی شد

اشتراک گذاری

برترین مطالب روز

امروز جدید
پربازدید اخیر
پربحث این هفته

پردیس نیوز

پردیس نیوز

پارلمان اروپا استفاده از هوش مصنوعی روی دستگاه‌های سازمانی را ممنوع کرد

قالیباف: ایران یکپارچه سوگوار مراسم چهلم فرزندان دلبند شهید خود است

میزان تسهیلات ازدواج و فرزندآوری تعیین شد

پزشکیان: نباید اجازه دهیم سلامت پلیس در ماموریت‌ها به خطر بیفتد

در مواجهه با اخبار آکسیوس هوشیار باشیم

مجوز مجلس برای به‌کارگیری ۱۰ هزار معلم بازنشسته و حق‌التدریس

حجت‌الاسلام سیدمحمدجواد جلالی دبیر هیئت اجرایی شورای وحدت شد

سازوکار مجلس برای پوشش بیمه‌ای دستیاران علوم پزشکی

تعیین میزان تسهیلات اشتغال خرد و خانگی در سال آینده

ورود هوش مصنوعی به اتاق تصمیم وزارت جهادکشاورزی؛ از تحلیل قوانین تا پایش نیروی انسانی

درباره مـا

به‌روز فان از سال ۱۳۹۱ رسانه‌ای در حوزه ارائه روزانه مطالب سرگرم‌کننده و فان است که با انتشار محتوای جذاب، متنوع و مناسب برای علاقه‌مندان به سرگرمی و تفریح سالم در فضای دیجیتال، لحظه‌های شاد، خلاق و اجتماعی و ترندهای روز را برای مخاطبان روایت می‌کند.

اطلاعات به‌روز فان

مطالب مدرن روز

اخبار فرهنگ و جامعه

خبرنامه و شبکه های اجتماعی

برای دریافت جدیدترین مطالب ایمیل خود را وارد کنید.
هیچ ایمیل تبلیغاتی ارسال نخواهد شد.

عضویت در خبرنامه

آخرین خبرها را میتوانید از طریق اپلیکیشن موبایل دریافت کنید

تمامی حقوق مادی و معنوی این وب‌سایت متعلق به مجله «به‌روز فان» است و استفاده از مطالب آن تنها برای مقاصد غیرتجاری و با ذکر منبع بلامانع می‌باشد.