- علیبابا مدل Qwen 3.5 را معرفی کرد؛ گامی بزرگ به سمت ایجنتهای چندوجهی
- متا از Manus Agents رونمایی کرد؛ راهی برای ارتباط با هوش مصنوعی در پیامرسانها
- نهاد حریم خصوصی اتحادیه اروپا درباره تولید تصاویر جنسی توسط گراک تحقیق میکند
- بریتانیا چتباتهای هوش مصنوعی را مشمول قوانین ایمنی آنلاین میکند
- همکاری احتمالی ایلان ماسک با پنتاگون؛ xAI روی پروژه کنترل پهپادهای خودمختار کار میکند
- بکارگیری انواع تسلیحات پدافندی و آفندی در رزمایش کنترل هوشمند سپاه
- تخصیص بودجه برای ارتقای فعالیتها و تولیدات فرهنگی
- تصویب جدول مصارف هدفمندسازی یارانهها
- ثبتنام ۱۰۴ هزار و ۷۵۵ متقاضی داوطلبی انتخابات شوراهای روستا
- دیدار لاریجانی با وزیر انرژی روسیه
متا هوش مصنوعی Spirit LM را معرفی کرد؛ مدلی برای تولید مکالمات صوتی طبیعی
متا از هوش مصنوعی جدیدی به نام Spirit LM رونمایی کرد که اولین مدل زبانی چندوجهی این شرکت است و میتواند ورودیها و خروجیهای متن و گفتار را یکپارچه ادغام کند. فناوری جدید متا باعث میشود گفتار و مکالمات صوتی با این مدل بسیار طبیعی باشد؛ از این نظر میتوان آن را رقیب GPT-4o دانست.
براساس اعلام متا، مدلهای زبانی بزرگ اغلب در مکالمات صوتی از فرایند تبدیل متن به گفتار (text-to-speech) استفاده میکنند که در آن صدای کاربر با «تشخیص خودکار گفتار» (ASR) رونویسی میشود، سپس LLM متنی تولید میکند و درنهایت با استفاده از فناوری تبدیل «متن به گفتار» (TTS) پاسخ هوش مصنوعی به گفتار تبدیل میشود.
این فرایند جنبههای بیانی و صوتی گفتار را از بین میبرد و دیگر مکالمات طبیعی نخواهد بود. در تلاش برای رفع این مسئله، متا Spirit LM را معرفی کرده که اولین مدل زبانی چندوجهی متنباز این شرکت است که متن و گفتار را با هم ترکیب میکند.
مدل متنباز Spirit LM متا برای مکالمات صوتی طبیعی

براساس مقاله علمی معرفی Spirit LM، این مدل دو نسخه دارد:
- Spirit LM Base: این نسخه از توکنهای آوایی (Phonetic) برای پردازش و تولید گفتار استفاده میکند.
- Spirit LM Expressive: که شامل توکنهای اضافی برای ایجاد زیروبم و لحن است که به مدل اجازه میدهد حالتهای احساسی ظریفتری مانند هیجان یا غم را ثبت و آنها را در گفتار تولیدشده منعکس کند.
هر دو مدل روی ترکیبی از مجموعه دادههای متنی و گفتاری آموزش دیدهاند که به Spirit LM اجازه میدهد کارهای مختلف چندوجهی مانند تبدیل گفتار به نوشتار و نوشتار به گفتار را انجام دهد و درعینحال بیان طبیعی صوتی خود را در خروجیها حفظ کند.
در راستای تعهد متا به انتشار مدلهای متنباز، این شرکت کدهای Spirit LM را نیز کاملاً در Github دسترس قرار داده است.
«مارک زاکربرگ»، مدیرعامل متا، همیشه مدافع سرسخت هوش مصنوعی متنباز بوده و اخیراً نیز گفته است هوش مصنوعی پتانسیل افزایش بهرهوری، خلاقیت و کیفیت زندگی انسان را دارد و پیشرفت در زمینههایی مانند تحقیقات پزشکی و اکتشافات علمی را سرعت میبخشد.
- علیبابا مدل Qwen 3.5 را معرفی کرد؛ گامی بزرگ به سمت ایجنتهای چندوجهی
- متا از Manus Agents رونمایی کرد؛ راهی برای ارتباط با هوش مصنوعی در پیامرسانها
- نهاد حریم خصوصی اتحادیه اروپا درباره تولید تصاویر جنسی توسط گراک تحقیق میکند
- بریتانیا چتباتهای هوش مصنوعی را مشمول قوانین ایمنی آنلاین میکند
- همکاری احتمالی ایلان ماسک با پنتاگون؛ xAI روی پروژه کنترل پهپادهای خودمختار کار میکند
- پارلمان اروپا استفاده از هوش مصنوعی روی دستگاههای سازمانی را ممنوع کرد
- ورود هوش مصنوعی به اتاق تصمیم وزارت جهادکشاورزی؛ از تحلیل قوانین تا پایش نیروی انسانی
- «اوپنایآی» توسعهدهنده هوش مصنوعی جنجالبرانگیز «OpenClaw» را استخدام کرد
- ۹۵ درصد استارتآپها در جهان با شکست مواجه میشوند
- معرفی یک هوش مصنوعی برای مراسم عشای ربانی توسط واتیکان
