بازی سوپر ماریو به بنچمارکی برای مقایسه عملکرد مدلهای هوش مصنوعی تبدیل شد
محققان گروه «Hao AI Lab» در دانشگاه کالیفرنیا سن دیگو، هوش مصنوعی را وارد دنیای بازیهای کلاسیک کردند و مدلهای هوش مصنوعی مطرح را در نسخهای خاص از «Super Mario Bros» به چالش کشیدند. این نسخه از بازی که در شبیهساز اجرا میشد، به کمک فریمورک داخلی «GamingAgent» به هوش مصنوعی امکان کنترل مستقیم ماریو را میداد.
عملکرد ضعیف مدلهای گوگل و OpenAI
در این رقابت بین هوش مصنوعیهای شناختهشده، مدل Claude 3.7 از شرکت آنتروپیک بهترین عملکرد را داشت و پس از آن نسخه Claude 3.5 قرار گرفت. مدلهای معروفی مانند جمینای ۱.۵ پرو از گوگل و GPT-4o از OpenAI نتوانستند چندان خوب عمل کنند.
نکته جالب اینکه مدلها برای هدایت ماریو باید دستورات را بهصورت کدهای پایتون تولید میکردند. GamingAgent به مدلها اطلاعات اولیهای مثل اینکه مانع یا دشمن نزدیک است، به چپ بپر و اسکرینشاتهایی از محیط بازی ارائه میکرد. سپس مدلها باید با تحلیل این دادهها، استراتژیهایی برای عبور از موانع، جمعآوری سکهها و پیشرفت در مراحل طراحی میکردند.

یکی از نکات جالب عملکرد ضعیفتر مدلهای مبتنیبر استدلال گامبهگام مانند نسخه GPT-4o reasoning نسبت به مدلهای معمولی بود. برخلاف انتظار، مدلهای استدلالگر که در حل مسائل پیچیدهتر و تفکر منطقی عملکرد بهتری دارند، در محیطهای بلادرنگ (real-time)، مثل بازی سوپر ماریو، با مشکل مواجه شدند. علت اصلی این ضعف زمانبر بودن تصمیمگیری است که گاهی چند ثانیه طول میکشد و در بازیهایی مثل ماریو تفاوت پرش موفق یا سقوط را رقم میزند.
استفاده از بازی برای مقایسه عملکرد مدلهای هوش مصنوعی
استفاده از بازیها برای بنچمارککردن هوش مصنوعی کار جدیدی نیست و از دههها پیش وجود داشته اما برخی کارشناسان معتقدند مقایسه عملکرد AI در بازیها با پیشرفت واقعی در هوش مصنوعی عمومی گمراهکننده است. بازیها نسبت به دنیای واقعی انتزاعیتر و سادهترند و حجم دادههای در دسترس برای تمرین نیز تقریباً بینهایت است.
این آزمایشهای نمایشی و رقابتهای گیمینگ به بخشی از آن چیزی تبدیل شدهاند که «آندری کارپاتی»، پژوهشگر ارشد و همبنیانگذار OpenAI، آن را بحران ارزیابی توصیف میکند. کارپاتی در پستی در شبکه اجتماعی ایکس نوشت:
«راستش را بخواهید، دیگر نمیدانم باید به کدام معیارها نگاه کنم. خلاصه اینکه اصلاً نمیدانم این مدلها دقیقاً چقدر خوباند.»
این آزمایش در شرایطی انجام شده که شرکتها بهدنبال روشهای جدیدی برای ارزیابی هوش مصنوعی فراتر از معیارهای سنتی مثل MMLU یا BIG-bench هستند. بازیهای بلادرنگ شاید معیار کاملی نباشند اما نشان میدهند مدلهای زبانی هنوز در تلفیق سرعت تصمیمگیری و استدلال منطقی، چالشهای اساسی دارند.
- هوش مصنوعی متا بهزودی به اپلیکیشن اختصاصی مجهز میشود
- نوآوری بزرگترین اپراتور مرکز تماس جهان: هوش مصنوعی برای درک لهجه هندی
- هوش مصنوعی ناجی کارمندان تازهکار میشود یا نردبان ترقی زبدهها؟
- عرضه گسترده مدل GPT-4.5 بهدلیل کمبود GPU به تعویق افتاده است
- 90 درصد دانشجویان بریتانیایی از هوش مصنوعی برای انجام تکالیف خود استفاده میکنند
- ایلان ماسک دوباره متذکر شد: احتمال نابودی انسان توسط هوش مصنوعی 20 درصد است
- مایکروسافت به دولت ترامپ درباره سیاستگذاری اشتباه در رقابت هوش مصنوعی هشدار داد
- نسخه رایگان هوش مصنوعی جمینای اکنون میتواند اطلاعات شما را ذخیره کند
- هوش مصنوعی DeepSeek برای توسعهدهندگان چه کاربرد و مزایایی دارد؟
- دیپسیک مدعی امکان دستیابی به حاشیه سود تئوری 545 درصدی شد




