- ارزیابی عملکرد ایجنتهای کدنویسی: جهش ۱۸۰ درصدی تولید کد، رشد ۳۰ درصدی خروجی واقعی
- آنتروپیک ۲۰۰ میلیون دلار برای بررسی تأثیر هوش مصنوعی بر اقتصاد سرمایهگذاری میکند
- بحران تنهایی سالمندان در کره جنوبی؛ عروسکهای هوش مصنوعی جای خالی فرزندان را پر میکنند
- فضائلی: تا دقایقی دیگر جزئیات مراسم تشییع قائد امت اعلام میشود
- قالیباف: تا پای جان برای سربلندی و پیروزی نهایی ایران ایستادهایم
- زمان تشییع قائد شهید امت اعلام شد
- جزئیات برگزاری مراسم وداع و تشییع امام شهید امت اسلامی
- شراکت راهبردی ایران، چین و روسیه با قوت تداوم خواهد یافت
- نگاهداری: امید، اعتماد و مشارکت اجتماعی پس از جنگ افزایش پیدا کرده است
- خاطراتی شنیدنی از زبان ذاکر اهل بیت دربارهی رهبری
ارزیابی عملکرد ایجنتهای کدنویسی: جهش ۱۸۰ درصدی تولید کد، رشد ۳۰ درصدی خروجی واقعی
ایجنتهای هوش مصنوعی کدنویسی امروزه تقریباً تمام آزمونهای سنجش مهارت (بنچمارکها) را که قبلاً برای آنها چالشبرانگیز بود، با موفقیت پشت سر گذاشتهاند؛ دستاوردی که چراغ سبز بزرگی برای سرمایهگذاران بود. اما پژوهش جدید محققان MIT روی بیش از ۱۰۰ هزار برنامهنویس، از یک شکاف بزرگ پرده برداشته است؛ اینکه ایجنتها حجم کدهای نوشتهشده را حدود ۱۸۰ درصد بیشتر کردهاند، اما میزان کدی که تأیید و در محیط عملیاتی منتشر شده (یعنی به دست کاربران رسیده)، تنها ۳۰ درصد رشد داشته است.
سرمایهگذاران خطرپذیر از اوایل سال ۲۰۲۴ و با معرفی ابزارهایی مانند Devin توسط شرکت Cognition، میلیاردها دلار به این بازار سرازیر کردند. Devin در ابتدا تنها میتوانست ۱۳ درصد از مسائل آزمون استاندارد SWE-Bench را حل کند، اما بعد از ۱۸ ماه، بهترین ایجنتهای هوش مصنوعی توانستهاند به امتیازهای بالای ۸۰ درصد در این آزمون برسند. این پیشرفت سریع، بسیاری از سرمایهگذاران را مطمئن کرده که دوران مهندسی نرمافزار به شکل سنتی روبهپایان است. بااینحال، «سارا گو»، بنیانگذار شرکت سرمایهگذاری Conviction، معتقد است که فعالان بازار برداشت اشتباهی از این روند تکاملی داشتهاند.
گو در این رابطه میگوید:
«تقریباً همه به این نتیجه غلط رسیدهاند که هوش مصنوعی، مهندسی نرمافزار را تسخیر کرده است. اما واقعیت این است که مدلهای هوش مصنوعی تنها بخشی از برنامهنویسی را بلعیده که اندازهگیری آن راحت بوده. مهندسی نرمافزار همیشه در برابر اندازهگیری مقاومت کرده و بخشهایی که راحتتر اندازهگیری میشوند، لزوماً تنها بخشهای مهم این فرایند نیستند.»
دادههای محققان MIT دلیل این ماجرا را بهخوبی روشن میکند. طبق این تحقیق، فهمیدن اینکه یک قطعه کد کار میکند یا نه، هزینهای برای هوش مصنوعی ندارد. در این شرایط مدل یک کامپایلر یا خروجی را میپذیرد یا رد میکند، و یک مجموعه تست یا با موفقیت پاس میشود یا شکست میخورد. چون این فرایندِ سنجش رایگان و سریع است، مدلها میتوانند میلیونها بار یک کار را تکرار کنند تا بالاخره برنده آزمون شوند.

اما به گفته این تحقیق چیزی که هوش مصنوعی نمیتواند به این سادگی و با هزینه کم آن را راستیآزمایی کند، این است که آیا تغییر ایجادشده، انتخاب درستی برای یک سیستم عملیاتیِ خاص و زنده است که ۱۰ سال از عمرش میگذرد؟ محققان میگویند پاسخ این سؤال را نمیتوان از روی جدول امتیازات متوجه شد؛ بلکه قطعه کد جدید باید مدتی طولانی زیر بار ترافیک واقعی کاربران تست شود تا مشکلات آن مشخص شود؛ فرایندی زمانبر که هیچ بهبود و پیشرفتی در قابلیتهای مدل هوش مصنوعی نمیتواند زمان آن را کوتاهتر کند.
- آنتروپیک ۲۰۰ میلیون دلار برای بررسی تأثیر هوش مصنوعی بر اقتصاد سرمایهگذاری میکند
- بحران تنهایی سالمندان در کره جنوبی؛ عروسکهای هوش مصنوعی جای خالی فرزندان را پر میکنند
- هشدار مدیرعامل آنتروپیک: حذف مشاغل ویژگی ذاتی و گریزناپذیر هوش مصنوعی است
- رقیب Claude Code؛ شیائومی از ایجنت هوش مصنوعی متنباز MiMo Code رونمایی کرد
- مایکروسافت با ایجنتهای هوش مصنوعی مثل کارمندان واقعی برخورد میکند
- ابزار جدید Deezer آهنگهای هوش مصنوعی را در سرویسهای استریم شناسایی میکند
- مایکروسافت دسترسی کارکنان خود به مدل جدید Claude Fable 5 را محدود کرد
- مرد استرالیایی با کمک ChatGPT برای سگش واکسن سرطان ساخت
- حکم دادگاه آلمانی: گوگل مسئول نشر اطلاعات نادرست در AI Overview است
- OpenAI برای رقابت با آنتروپیک به کاهش قیمت اشتراکهای خود فکر میکند
