نتایج درخشان بنچمارک مدلهای هوش مصنوعی لاما 4 متا زیر سؤال رفت
متا اوایل هفته جاری از مدلهای هوش مصنوعی Llama 4 ازجمله Scout و Maverick رونمایی کرد. نتایج بنچمارکهای اولیه نشان میداد این مدلها قویتر از رقبا هستند اما شاید متا نتایج این بنچمارکها را دستکاری کرده باشد، هرچند خود شرکت این ادعا را رد میکند.
به گزارش ورج، مدل Maverick در بنچمارک LMArena توانست نمره ۱۴۱۷ را کسب کند و رقبایی همچون مدل 4o از OpenAI را پشت سر بگذارد و با فاصله بسیار اندکی پشت سر مدل جمینای ۲.۵ پرو قرار بگیرد. این نتایج ابتدا حکایت از آن داشت که متا توانسته رقبای قدرتمندی همچون گوگل و OpenAI را شکست دهد اما متخصصان حوزه هوش مصنوعی ادعاهای متا را بررسی کردند و به نتایج جالبی رسیدند.
شک و تردید درباره نتایج بنچمارکهای مدل Llama 4 متا

متخصصان ادعا میکنند متا مدلهای Llama 4 را آموزش داده تا در بنچمارکها عملکرد بهتری داشته باشند و درعینحال محدودیتهای واقعی خود را پنهان کنند. بااینکه از همان ابتدا شبهات زیادی درباره عملکرد این مدلها در بنچمارکها و احتمال دستکاری نتایج وجود داشت، «احمد الدحله»، معاون هوش مصنوعی مولد در متا، در پستی در شبکه اجتماعی ایکس تمام این شایعات را تکذیب کرد و گفت چنین چیزی صحت ندارد.
متا اذعان کرده نسخهای از مدل هوش مصنوعی Maverick که در بنچمارک LMArena تست شده، با مدلی که در دسترس عموم قرار گرفته، یکسان نیست. براساس اسناد خود متا، این شرکت نسخه آزمایشی مدل Maverick را در بنچمارک LMArena قرار داده است. این مدل برای مکالمه بهینهسازی شده و از ایموجیهای بیشتری استفاده میکند. همچنین این مدل آزمایشی پاسخهای طولانیتری به سؤالات کاربران میدهد.
علاوهبراین، زمان انتشار مدلهای جدید هوش مصنوعی متا نیز بر شک متخصصان افزود. متا شنبه، روز اول تعطیلات آخر هفته، از مدلهای Scout و Maverick رونمایی کرد که برای رونمایی از محصولی جدید با چنین پیشرفتهای خارقالعاده بسیار غیرمعمول است.
- آمازون از مدل هوش مصنوعی Nova Sonic پرده برداشت؛ رقیب حالت صوتی ChatGPT
- حالت AI Mode گوگل حالا میتواند به سؤالات پیچیده درباره تصاویر پاسخ دهد
- استارتاپ جدید Deep Cogito اولین مدلهای هوش مصنوعی خود را منتشر کرد؛ قدرتمند در برابر رقبا
- انویدیا منتشر کرد: نسخهای از مدل لاما 3.1 که کوچکتر و قویتر از DeepSeek R1 است
- قابلیت Deep Search گوگل به جمینای 2.5 پرو مجهز شد؛ قویتر از ChatGPT
- آزمایش قابلیت Copilot Vision آغاز شد؛ مشاهده محتوای صفحه و برنامههای ویندوز
- بریتانیا ابزار پیشبینی قتل میسازد: شناسایی افرادی که احتمال ارتکاب جرم آنها بالاست
- اتحادیه اروپا طرح «قاره هوش مصنوعی» را برای رقابت با آمریکا و چین معرفی کرد
- تراشه هوش مصنوعی Ironwood معرفی شد؛ قدرتمندترین TPU گوگل
- برای اولین بار در جهان: چین با کامپیوتر کوانتومی مدل هوش مصنوعی یک میلیارد پارامتری را تنظیم کرد




