- تغییر محل برگزاری مراسم تشییع عنایت بخشی
- تدارک رادیو برای ماه رمضان؛ بیش از 5200 برنامه برای مخاطبان
- انتقال موشکهای بالستیک دانگ فنگ ۱۷ به ایران / قاتل ناوهای آمریکا رونمایی شد
- بلاتکلیفی عجیب در لیگ برتر / پرسپولیس هنوز ورزشگاه ندارد
- مدیرعامل گوگل و OpenAI برای شرکت در اجلاس هوش مصنوعی به هند میروند
- تنش میان پنتاگون و آنتروپیک بر سر استفاده نظامی از هوش مصنوعی بالا گرفت
- تحول طراحی مدار الکترونیکی با هوش مصنوعی جدید در ۲۰۲۶
- نتیجه عجیب آزمایش شبیهسازی فروشندگی: ایجنت هوش مصنوعی Claude کارتل تشکیل داد
- موسوی: توافق عادلانه و منصفانه در دسترس است
- پیام تسلیت روابط عمومی ارتش بمناسبت درگذشت مرحوم عنایتالله بخشی
انویدیا از فناوری Helix برای بهبود سرعت و پاسخگویی هوش مصنوعی رونمایی کرد
انویدیا از یک تکنیک موازیسازی به نام «هلیکس پاراللیسم» (Helix Parallelism) پرده برداشته است که به مدلهای هوش مصنوعی اجازه میدهد تا حجم عظیمی از اطلاعات را پردازش کنند و با همان سرعت بهطور همزمان به ۳۲ برابر کاربر بیشتر پاسخ دهند. این فناوری بهطور ویژه برای معماری پردازشگرهای گرافیکی جدید بلکول (Blackwell) طراحی شده است.
با بزرگتر و پیچیدهتر شدن مدلهای هوش مصنوعی، یکی از مهمترین مسائل آنها توانایی پردازش حجم عظیمی از اطلاعات زمینه (Context) در هنگام تولید پاسخهای آنی است. اکنون انویدیا با معرفی Helix Parallelism راهحلی برای این مشکل ارائه کرده است.
معرفی فناوری Helix انویدیا
مدلهای زبان بزرگ برای تولید هر کلمه جدید، با دو چالش اساسی روبهرو هستند:
- آنها باید بهطور مداوم کل تاریخچه مکالمه (که در حافظهای به نام KV Cache ذخیره شده) را اسکن کنند که این فرایند پهنای باند حافظه پردازشگر گرافیکی (GPU) را به شدت تحت فشار قرار میدهد.
- همزمان، برای پردازش هر کلمه، باید وزنهای عظیم «شبکه عصبی پیشخور» (FFN) از حافظه بارگذاری شوند که این امر باعث کندی و افزایش تأخیر، بهویژه در کاربردهای آنی و زنده مانند چتباتها میشود.

فناوری هلیکس با یک رویکرد هوشمندانه، این دو فرایند را از هم جدا و به صورت بهینه مدیریت میکند:
- موازیسازی KV: در مرحله اول، هلیکس بهجای کپیکردن کل حافظه مکالمه (KV Cache) روی تمام GPUها، آن را به صورت هوشمندانه بین پردازندههای مختلف تقسیم میکند. این کار از تکرار بیهوده دادهها جلوگیری میکند و فشار روی حافظه را به شدت کاهش میدهد.
- استفاده مجدد از منابع: در مرحله بعد، همان GPUها بلافاصله وظیفه خود را تغییر میدهند و با استفاده از روش «موازیسازی تنسوری» (TP) به پردازش لایه FFN میپردازند. این جابهجایی هوشمندانه باعث میشود پردازندهها همیشه فعال باقی بمانند و زمان بیکاری به حداقل برسد.
این فرایند پیچیده با استفاده از فناوریهای اتصال پرسرعت انویدیا مانند NVLink و NVL72 و همچنین تکنیکی به نام HOP-B ممکن شده است.
نتایج شبیهسازیها با یک مدل زبانی بزرگ، عملکرد فوقالعاده این فناوری را به اثبات رسانده است؛ هلیکس میتواند با حفظ همان سرعت و تأخیر، به ۳۲ برابر کاربر بیشتر بهصورت همزمان سرویس بدهد. همچنین در شرایط بار کاری کمتر، زمان پاسخگویی (تأخیر بین تولید هر کلمه) تا ۱.۵ برابر کاهش مییابد.
این پیشرفت به این معناست که دستیارهای مجازی و چتباتهای هوش مصنوعی اکنون میتوانند میلیونها کلمه اطلاعات را بهصورت آنی پردازش کنند و درعینحال، پاسخگویی و سرعت خود را در تعامل با کاربر حفظ کنند.
- مدیرعامل گوگل و OpenAI برای شرکت در اجلاس هوش مصنوعی به هند میروند
- تنش میان پنتاگون و آنتروپیک بر سر استفاده نظامی از هوش مصنوعی بالا گرفت
- تحول طراحی مدار الکترونیکی با هوش مصنوعی جدید در ۲۰۲۶
- نتیجه عجیب آزمایش شبیهسازی فروشندگی: ایجنت هوش مصنوعی Claude کارتل تشکیل داد
- ماجرای فشار «پنتاگون» به شرکتهای هوش مصنوعی چیست؟
- «چتجیپیتی» در هند ۱۰۰ میلیون کاربر هفتگی دارد
- جنجال بر سر پیشبینی درآمد از روی چهره!
- واکنش تند هالیوود به هوش مصنوعی بایتدنس؛ Seedance 2.0 متهم به سرقت هنری شد
- مقایسه و بررسی برترین ابزارهای هوش مصنوعی برای تولید زیرنویس فارسی
- بایتدنس مدل Doubao 2.0 را معرفی کرد؛ ورود به عصر ایجنتهای هوش مصنوعی
