محققان اپل: مدل‌های هوش مصنوعی فعلی ناقص هستند؛ زیرا نمی‌توانند استدلال کنند

دانشمندان اپل بنچمارک جدیدی با نام GSM-Symbolic را پیشنهاد کرده‌اند که با آن می‌توان قابلیت‌های استدلال مدل‌های زبانی بزرگ را اندازه‌گیری کرد.

کد خبر: 13821

زمان انتشار: 30 دسامبر 2025 - 06:38 ق.ظ -

2 بازدید

دانشمندان هوش مصنوعی اپل در مقاله جدیدی توضیح داده‌اند موتورهای مبتنی‌بر مدل‌های زبانی بزرگ (LLM)، مانند موتورهای متا و OpenAI، هنوز مهارت‌های اساسی استدلال را ندارند.

دانشمندان اپل در مقاله خود بنچمارک جدیدی با نام GSM-Symbolic را پیشنهاد کرده‌اند که با آن می‌توان قابلیت‌های استدلال مدل‌های زبانی بزرگ مختلف را اندازه‌گیری کرد. آن‌ها در تحقیق خود متوجه شده‌اند اعمال تغییرات جزئی در دستورات متنی، می‌تواند پاسخ‌های کاملاً متفاوتی داشته باشد و این موضوع اطمینان به مدل‌ها را تضعیف می‌کند.

محققان اپل با اضافه‌کردن برخی اطلاعات زمینه‌ای به سؤالات خود، تلاش کرده‌اند «شکنندگی» استدلال ریاضی را نشان بدهند. آن‌ها در مقاله حاضر این‌گونه شرح می‌دهند:

«زمانی که فقط مقادیر عددی سؤال در بنچمارک GSM-Symbolic تغییر می‌کند، عملکرد تمام مدل‌ها کاهش می‌یابد. علاوه‌براین، شکنندگی استدلال ریاضی در این مدل‌ها نشان می‌دهد با افزایش تعداد بندهای سؤال، عملکرد آن‌ها به‌طور قابل‌توجهی بدتر می‌شود.»

خطای هوش مصنوعی در محاسبه‌

محققان اپل: مدل‌های هوش مصنوعی فعلی ناقص هستند؛ زیرا نمی‌توانند استدلال کنند

در این مطالعه نشان داده شده اضافه‌کردن حتی یک جمله که درباره سؤال ریاضی اطلاعات بیشتری ارائه می‌کند، می‌تواند دقت پاسخ نهایی را تا 65 درصد کاهش بدهد.

در یکی از مثال‌ها، دانشمندان ابتدا توضیح زیر را به هوش مصنوعی دادند:

«اولیور جمعه 44 کیوی می‌چیند. سپس شنبه 58 کیوی دیگر می‌چیند. جمعه، برداشت او دوبرابر کیوی‌هایی است که جمعه برداشت شده بود.»

سپس به هوش مصنوعی گفته شد «از کیوی‌هایی که یکشنبه چیده‌ شده، 5 عدد کمی کوچک‌تر از متوسط بود.» عبارتی گرچه به‌طورکلی نامرتبط نیست اما روی پاسخ نهایی سؤال که «اولیور چند کیوی دارد؟» نباید تأثیری بگذارد.

اما دانشمندان اپل می‌گویند مدل OpenAI و Llama3-8b از متا، 5 کیوی کوچک‌تر را حساب نکرده‌اند.

دانشمندان اپل در نتیجه‌گیری تحقیق خود می‌گویند: «به‌هیچ‌وجه نمی‌توان مبتنی‌بر این زیرساخت دستیارهای قابل‌اعتمادی ساخت؛ زیرا تغییر یک یا دو کلمه به روش‌های نامربوط یا اضافه‌کردن کمی اطلاعات نامربوط می‌تواند پاسخ متفاوتی ارائه کند.»

نوشته شده توسط: دیجیاتو

اخبار مرتبط

کپی شد

اشتراک گذاری

برترین مطالب روز

امروز جدید
پربازدید اخیر
پربحث این هفته

پردیس نیوز

پردیس نیوز

علی‌بابا مدل Qwen 3.5 را معرفی کرد؛ گامی بزرگ به سمت ایجنت‌های چندوجهی

متا از Manus Agents رونمایی کرد؛ راهی برای ارتباط با هوش مصنوعی در پیام‌رسان‌ها

نهاد حریم خصوصی اتحادیه اروپا درباره تولید تصاویر جنسی توسط گراک تحقیق می‌کند

بریتانیا چت‌بات‌های هوش مصنوعی را مشمول قوانین ایمنی آنلاین می‌کند

همکاری احتمالی ایلان ماسک با پنتاگون؛ xAI روی پروژه کنترل پهپادهای خودمختار کار می‌کند

بکارگیری انواع تسلیحات پدافندی و آفندی در رزمایش کنترل هوشمند سپاه

تخصیص بودجه برای ارتقای فعالیت‌ها و تولیدات فرهنگی

تصویب جدول مصارف هدفمندسازی یارانه‌ها

ثبت‌نام ۱۰۴ هزار و ۷۵۵ متقاضی داوطلبی انتخابات شوراهای روستا

دیدار لاریجانی با وزیر انرژی روسیه

درباره مـا

به‌روز فان از سال ۱۳۹۱ رسانه‌ای در حوزه ارائه روزانه مطالب سرگرم‌کننده و فان است که با انتشار محتوای جذاب، متنوع و مناسب برای علاقه‌مندان به سرگرمی و تفریح سالم در فضای دیجیتال، لحظه‌های شاد، خلاق و اجتماعی و ترندهای روز را برای مخاطبان روایت می‌کند.

اطلاعات به‌روز فان

مطالب مدرن روز

اخبار فرهنگ و جامعه

خبرنامه و شبکه های اجتماعی

برای دریافت جدیدترین مطالب ایمیل خود را وارد کنید.
هیچ ایمیل تبلیغاتی ارسال نخواهد شد.

عضویت در خبرنامه

آخرین خبرها را میتوانید از طریق اپلیکیشن موبایل دریافت کنید

تمامی حقوق مادی و معنوی این وب‌سایت متعلق به مجله «به‌روز فان» است و استفاده از مطالب آن تنها برای مقاصد غیرتجاری و با ذکر منبع بلامانع می‌باشد.