مدلهای هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم میشوند
چند روز قبل OpenAI از مدلهای استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدلهای قبلی این شرکت پیشرفت کردهاند. البته طبق گزارشهای جدید این مدلها هنوز دچار توهم میشوند؛ یعنی چیزهایی میگویند که واقعیت ندارد.
براساس گزارش تککرانچ، 2 مدل استدلالگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تستهای OpenAI، این 2 مدل استدلالگر بیشتر از مدلهای استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدلهای معمولی OpenAI مانند GPT-4o توهم ایجاد میکنند.
درکل توهمات یکی از بزرگترین مسائل هوش مصنوعی است که برطرفکردن آنها بسیار دشوار است. بااینحال مدلهای جدید کمی در بخش توهم بهبود مییابند و کمتر از مدل قبلی خود دچار توهم میشوند اما این امر درباره o3 و o4-mini صادق نیست.
توهم در مدلهای هوش مصنوعی جدید OpenAI
نکته نگرانکنندهتر این است که OpenAI واقعاً نمیداند چرا این اتفاق میافتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini مینویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدلهای استدلالی افزایش یافته است.»

O3 و o4-mini در برخی زمینهها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجاییکه آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همانقدر که ادعاهای دقیقتری میکنند، ادعاهای نادرست و متوهمتری نیز ارائه میدهند.
OpenAI میگوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد میکند. این تقریباً دو برابر میزان توهم مدلهای استدلالگر قبلی o1 و o3-mini است که بهترتیب امتیاز بنچمارک آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدلها کمک کند به ایدههای جالبی برسند و خلاق باشند اما این امر برای کسبوکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکلساز است. یکی از روشهای امیدوارکننده برای افزایش دقت مدلها، داشتن قابلیت جستجوی وب مدلهاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارکهای سنجش دقت) به دست آورد.
- جمینای 2.5 فلش معرفی شد؛ اولین هوش مصنوعی هیبریدی گوگل
- OpenAI از «پردازش فلکس» رونمایی کرد؛ کاهش 50 درصدی هزینه استفاده از o3 و o4-mini
- ChatGPT حالا از حافظهاش برای شخصیسازی جستجوی وب استفاده میکند
- ChatGPT حالا میتواند موقعیت مکانی عکسها را با دقتی شگفتانگیز شناسایی کند
- آزمایشهای محرمانه متا لو رفت؛ ارزیابی تأثیر دادهها در عملکرد هوش مصنوعی
- سم آلتمن: گفتن «لطفاً» و «ممنونم» به چتباتها میلیونها دلار هزینه دارد
- استارتاپ جدید Mechanize میخواهد هوش مصنوعی را کاملاً جایگزین نیروی انسانی کند
- قابلیت Vision برای Grok در آیفون؛ هوش مصنوعی xAI حالا میتواند با دوربین ببیند
- آینده مهاجرت در عصر هوش مصنوعی: جنگ جذب استعدادها در راه است؟
- متا استفاده از کتابها در آموزش هوش مصنوعی را توجیه کرد: ارزش اقتصادی ندارند




