مایکروسافت از هوش مصنوعی VASA رونمایی کرد؛ ساخت چهرههای سخنگو از روی عکس [تماشا کنید]
محققان مایکروسافت سیستم هوش مصنوعی جدیدی را با نام VASA توسعه دادهاند که میتواند از یک تصویر یا فایل صوتی، چهرههای متحرک واقعی ایجاد کند. VASA-1، بهعنوان اولین مدل ساختهشده با این چارچوب، میتواند حالات چهره، حرکات لب کاملاً هماهنگ و حرکات طبیعی سر را ایجاد کند. این سیستم پتانسیل ایجاد تجربیات جذاب و واقعی را در برنامههای مختلف بههمراه دارد.
براساس توضیحات مایکروسافت، عملکرد VASA-1 فراتر از تطبیق حرکات لب با صدا است و میتواند طیف گستردهای از احساسات، ظرافتهای چهره و حرکات طبیعی سر را نیز به تصویر بکشد و چهرههای ساختهشده را واقعیتر نشان دهد. علاوهبراین، روی ویدیوی تولیدشده کنترل دارد؛ به این معنا که کاربران میتوانند جهت نگاهکردن شخصیت، فاصله درکشده و حتی حالت احساسی آنها را مشخص کنند.
هوش مصنوعی ساخت چهره سخنگو مایکروسافت
در ویدیوی زیر نحوه ساخت چهره سخنگو از روی یک تصویر ساده را میتوانید مشاهده کنید:
نکته قابلتوجه دیگر اینکه هرچند VASA-1 با عکسهای هنری، صدای آواز یا گفتار غیرانگلیسی آموزش ندیده است، اما همچنان میتواند با استفاده از این ورودیها ویدیو تولید کند.
ویدیو زیر نیز با استفاده از تصویر نقاشی معروف «مونا لیزا» ساخته شده است:
مایکروسافت در ادامه توضیح میدهد که این سیستم میتواند ویدیوهایی با وضوح بالا (512 در 512 پیکسل) و نرخ فریم بالا تولید کند. در حالت آفلاین، VASA-1 ویدیوهایی با سرعت 45 فریمدرثانیه تولید میکند و در حالت آنلاین این میزان به 40 فریمدرثانیه میرسد.
محققان مایکروسافت ضمن اشاره به پتانسیل سوءاستفاده از این سیستم هوش مصنوعی، کاربردهای مثبت VASA-1 را برجسته کردهاند. ازجمله این کاربردها به بهبود تجربیات آموزشی و کمک درزمینه ارتباطات اشاره شده است.
- مدیرعامل دیپمایند: گوگل بیش از 100 میلیارد دلار برای هوش مصنوعی هزینه خواهد کرد
- تعداد کاربران چتبات Ernie شرکت بایدو از 200 میلیون فراتر رفت
- لاجیتک از ماوس جدید مجهز به دکمه هوش مصنوعی رونمایی کرد
- بایدو از سیستمعامل Wanyuan رونمایی کرد؛ متمرکز بر محاسبات هوشمند
- آغاز رقابت جدی با ChatGPT؛ هوش مصنوعی متا رسماً به اینستاگرام، واتساپ و فیسبوک اضافه شد
- ادعای متا: مدل زبانی لاما 3 عملکرد بهتری نسبت به اغلب رقبا دارد
- عملکرد خیرهکننده پلتفرم هوش مصنوعی Groq در اجرای Llama 3 متا: پردازش 800 توکن در هر ثانیه
- بلومبرگ: هوش مصنوعی iOS 18 از نظر سرعت و حریم خصوصی نسبت به رقبا برتری دارد
- هوش مصنوعی جمینای احتمالاً به سرویسهای استریم موسیقی دسترسی پیدا میکند
- مایکروسافت ظاهراً بهدنبال افزایش همکاری با سامسونگ در حوزه هوش مصنوعی است




