- بدرقه ساکت و بیحضور چهرهها برای عنایت بخشی در تالار وحدت
- اظهارات معنادار ترامپ پیش از مذاکرات: ایران نمیخواهد بهای عدم توافق را بدهد
- تحرکات نظامی آمریکا در خاورمیانه / حضور نظامی تمدید شد
- دور دوم دیپلماسی در ژنو؛ سناریوهای پیشروی مذاکرات هستهای ایران و آمریکا
- شب مرگ و زندگی استقلال / آبیها حذف میشوند؟
- «نبرد عبرتآموز»: ایران چگونه معادلات جنگ را دگرگون کرده است؟
- فارس: سه نفتکش توقیف شده توسط هند ارتباطی با ایران ندارد
- ایران گنبد جدید حرم امام حسین (ع) را با طلا ساخت / طلاهای گنبد از کجا تأمین شد؟
- زمان ورود ناو آمریکایی به منطقه مشخص شد؟ / اعلام وضعیت فوق العاده
- آیا حماس خلع سلاح خواهد شد؟/ پاسخ رهبران حماس به آخرین مهلت خلع سلاح
هوش مصنوعی FantasyTalking معرفی شد؛ ساخت شخصیتهای سخنگوی واقعگرایانه [تماشا کنید]
محققان چینی هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کردهاند که میتواند فقط با یک تصویر پرتره ثابت، ویدیوهایی واقعگرایانه و قابلکنترل از چهرههای درحال صحبت تولید کند. این مدل از معماری پیشرفته مبتنیبر Video Diffusion Transformer بهره میبرد و با استفاده از تکنیکهای هماهنگسازی صوتی-تصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد میکند.
طبق توضیحات صفحه Github این پروژه، در قلب آن استراتژی دومرحلهای برای همگامسازی صوت و تصویر وجود دارد.
نحوه تولید آواتار سخنگو توسط هوش مصنوعی FantasyTalking
در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پسزمینه را با صدای ورودی هماهنگ میکند. در مرحله دوم، جزئیات حرکات لب با دقت فریمبهفریم و با استفاده از ماسکهای خاصی اصلاح میشود تا کامل با صدا منطبق شود.
یکی از چالشهای اساسی در حوزه گرافیک و بینایی ماشین تولید آواتارهای متحرک از تصویر ثابت بوده است. اغلب روشهای قبلی برای حفظ واقعگرایی و هماهنگی با صدا، از مدلهای سهبعدی میانجی مثل 3DMM یا FLAME استفاده میکردند اما این روشها در بازتولید حرکات ظریف صورت و انیمیشنهای طبیعی ناکارآمد بودند.
در ویدیو زیر میتوانید برخی نمونههای ساخته این مدل و مدلهای دیگر را با هم مقایسه کنید:
FantasyTalking همچنین از ماژول ویژه برای کنترل شدت حرکات بهره میبرد که امکان تنظیم میزان انیمیشن حالات چهره و بدن را فراهم میکند. این ویژگی تولید ویدیوهایی فراتر از حرکت لبها را ممکن میکند. برخلاف بسیاری از مدلهای دیگر، این سیستم برای حفظ هویت چهره از مکانیزمی مبتنیبر چهره استفاده میکند که نتایج طبیعیتر و یکپارچهتری ارائه میدهد.
از دیگر تواناییهای این مدل میتوان به تولید ویدیوهای حرفزدن شخصیتها با زوایای مختلف (نمای نزدیک، نیمتنه، تمامقد، از روبهرو یا زاویهدار)، پشتیبانی از استایلهای گرافیکی مختلف (واقعگرایانه یا کارتونی) و حتی متحرکسازی (Animate) حیوانات اشاره کرد.
در مقایسه با روشهای بسته و پیشرفتهای مانند OmniHuman-1، مدل FantasyTalking از نظر واقعگرایی، حفظ هویت، انسجام حرکتی و تطابق صوتی-تصویری کیفیت بالاتری ارائه میدهد.
- هشدار محققان: باتها در شبکههای اجتماعی میتوانند افکار عمومی را فریب دهند
- عقبنشینی بایتدنس در پی اعتراض هالیوود؛ هوش مصنوعی Seedance 2.0 محدود میشود
- مدیرعامل گوگل و OpenAI برای شرکت در اجلاس هوش مصنوعی به هند میروند
- تنش میان پنتاگون و آنتروپیک بر سر استفاده نظامی از هوش مصنوعی بالا گرفت
- تحول طراحی مدار الکترونیکی با هوش مصنوعی جدید در ۲۰۲۶
- نتیجه عجیب آزمایش شبیهسازی فروشندگی: ایجنت هوش مصنوعی Claude کارتل تشکیل داد
- ماجرای فشار «پنتاگون» به شرکتهای هوش مصنوعی چیست؟
- «چتجیپیتی» در هند ۱۰۰ میلیون کاربر هفتگی دارد
- جنجال بر سر پیشبینی درآمد از روی چهره!
- واکنش تند هالیوود به هوش مصنوعی بایتدنس؛ Seedance 2.0 متهم به سرقت هنری شد
