ارزیابی عملکرد ایجنت‌های کدنویسی: جهش ۱۸۰ درصدی تولید کد، رشد ۳۰ درصدی خروجی واقعی

حجم تولید کد به شدت افزایش یافته اما خروجی واقعی در محصولات نرم‌افزاری به همان اندازه رشد نکرده است.

کد خبر: 41759

زمان انتشار: 13 ژوئن 2026 - 19:45 ب.ظ -

1 بازدید

ایجنت‌های هوش مصنوعی کدنویسی امروزه تقریباً تمام آزمون‌های سنجش مهارت (بنچمارک‌ها) را که قبلاً برای آنها چالش‌برانگیز بود، با موفقیت پشت سر گذاشته‌اند؛ دستاوردی که چراغ سبز بزرگی برای سرمایه‌گذاران بود. اما پژوهش جدید محققان MIT روی بیش از ۱۰۰ هزار برنامه‌نویس، از یک شکاف بزرگ پرده برداشته است؛ اینکه ایجنت‌ها حجم کدهای نوشته‌شده را حدود ۱۸۰ درصد بیشتر کرده‌اند، اما میزان کدی که تأیید و در محیط عملیاتی منتشر شده (یعنی به دست کاربران رسیده)، تنها ۳۰ درصد رشد داشته است.

سرمایه‌گذاران خطرپذیر از اوایل سال ۲۰۲۴ و با معرفی ابزارهایی مانند Devin توسط شرکت Cognition، میلیاردها دلار به این بازار سرازیر کردند. Devin در ابتدا تنها می‌توانست ۱۳ درصد از مسائل آزمون استاندارد SWE-Bench را حل کند، اما بعد از ۱۸ ماه، بهترین ایجنت‌های هوش مصنوعی توانسته‌اند به امتیازهای بالای ۸۰ درصد در این آزمون برسند. این پیشرفت سریع، بسیاری از سرمایه‌گذاران را مطمئن کرده که دوران مهندسی نرم‌افزار به شکل سنتی روبه‌پایان است. با‌این‌حال، «سارا گو»، بنیان‌گذار شرکت سرمایه‌گذاری Conviction، معتقد است که فعالان بازار برداشت اشتباهی از این روند تکاملی داشته‌اند.

گو در این رابطه می‌گوید:

«تقریباً همه به این نتیجه غلط رسیده‌اند که هوش مصنوعی، مهندسی نرم‌افزار را تسخیر کرده است. اما واقعیت این است که مدل‌های هوش مصنوعی تنها بخشی از برنامه‌نویسی را بلعیده که اندازه‌گیری‌ آن راحت بوده. مهندسی نرم‌افزار همیشه در برابر اندازه‌گیری مقاومت کرده و بخش‌هایی که راحت‌تر اندازه‌گیری می‌شوند، لزوماً تنها بخش‌های مهم این فرایند نیستند.»

داده‌های محققان MIT دلیل این ماجرا را به‌خوبی روشن می‌کند. طبق این تحقیق، فهمیدن اینکه یک قطعه کد کار می‌کند یا نه، هزینه‌ای برای هوش مصنوعی ندارد. در این شرایط مدل یک کامپایلر یا خروجی را می‌پذیرد یا رد می‌کند، و یک مجموعه تست یا با موفقیت پاس می‌شود یا شکست می‌خورد. چون این فرایندِ سنجش رایگان و سریع است، مدل‌ها می‌توانند میلیون‌ها بار یک کار را تکرار کنند تا بالاخره برنده آزمون شوند.

ارزیابی عملکرد ایجنت‌های کدنویسی: جهش ۱۸۰ درصدی تولید کد، رشد ۳۰ درصدی خروجی واقعی

اما به گفته این تحقیق چیزی که هوش مصنوعی نمی‌تواند به این سادگی و با هزینه کم آن را راستی‌آزمایی کند، این است که آیا تغییر ایجادشده، انتخاب درستی برای یک سیستم عملیاتیِ خاص و زنده است که ۱۰ سال از عمرش می‌گذرد؟ محققان می‌گویند پاسخ این سؤال را نمی‌توان از روی جدول امتیازات متوجه شد؛ بلکه قطعه کد جدید باید مدتی طولانی زیر بار ترافیک واقعی کاربران تست شود تا مشکلات آن مشخص شود؛ فرایندی زمان‌بر که هیچ بهبود و پیشرفتی در قابلیت‌های مدل هوش مصنوعی نمی‌تواند زمان آن را کوتاه‌تر کند.

نوشته شده توسط: دیجیاتو

اخبار مرتبط

کپی شد

اشتراک گذاری

برترین مطالب روز

امروز جدید
پربازدید اخیر
پربحث این هفته

پردیس نیوز

پردیس نیوز

ارزیابی عملکرد ایجنت‌های کدنویسی: جهش ۱۸۰ درصدی تولید کد، رشد ۳۰ درصدی خروجی واقعی

آنتروپیک ۲۰۰ میلیون دلار برای بررسی تأثیر هوش مصنوعی بر اقتصاد سرمایه‌گذاری می‌کند

بحران تنهایی سالمندان در کره جنوبی؛ عروسک‌های هوش مصنوعی جای خالی فرزندان را پر می‌کنند

فضائلی: تا دقایقی دیگر جزئیات مراسم تشییع قائد امت اعلام می‌شود

قالیباف: تا پای جان برای سربلندی و پیروزی نهایی ایران ایستاده‌ایم

زمان تشییع قائد شهید امت اعلام شد

جزئیات برگزاری مراسم وداع و تشییع امام شهید امت اسلامی

شراکت راهبردی ایران، چین و روسیه با قوت تداوم خواهد یافت

نگاهداری: امید، اعتماد و مشارکت اجتماعی پس از جنگ افزایش پیدا کرده است

خاطراتی شنیدنی از زبان ذاکر اهل بیت درباره‌ی رهبری

درباره مـا

به‌روز فان از سال ۱۳۹۱ رسانه‌ای در حوزه ارائه روزانه مطالب سرگرم‌کننده و فان است که با انتشار محتوای جذاب، متنوع و مناسب برای علاقه‌مندان به سرگرمی و تفریح سالم در فضای دیجیتال، لحظه‌های شاد، خلاق و اجتماعی و ترندهای روز را برای مخاطبان روایت می‌کند.

اطلاعات به‌روز فان

مطالب مدرن روز

اخبار فرهنگ و جامعه

خبرنامه و شبکه های اجتماعی

برای دریافت جدیدترین مطالب ایمیل خود را وارد کنید.
هیچ ایمیل تبلیغاتی ارسال نخواهد شد.

عضویت در خبرنامه

آخرین خبرها را میتوانید از طریق اپلیکیشن موبایل دریافت کنید

تمامی حقوق مادی و معنوی این وب‌سایت متعلق به مجله «به‌روز فان» است و استفاده از مطالب آن تنها برای مقاصد غیرتجاری و با ذکر منبع بلامانع می‌باشد.