هوش مصنوعی جدید فیسبوک تا 5 صدا را با کیفیت استودیویی از هم تفکیک می‌کند

مهندسین فیسبوک موفق به طراحی مدلی از هوش مصنوعی شده‌اند که می‌تواند در آن واحد صدای پنج نفر مختلف را تشخیص دهد، و سپس آنها را به متن تبدیل کرده یا از هم تفکیک و جداگانه ذخیره کند.

طبق مدارک و توضیحات منتشر شده در github، محققین گروه هوش مصنوعی شبکه اجتماعی متعلق به مارک زاکربرگ موفق شده‌اند مدلی طراحی کنند که در یک مکالمه گروهی می‌تواند صدای پنج نفر مختلف را تشخیص داده و نه تنها آن را به متن تبدیل، بلکه در پنج فایل جداگانه ذخیره سازی کند. این تیم مدعی است متد جدید طراحی شده از نظر کیفیت و سرعت جداسازی منابع صوتی، کاهش نویز و تثبیت عمق از تمام سیستم‌های موجود کیفیت بالاتری دارد.

فیسبوک از سیستم عصبی جدیدی برای ساخت کلاسی از الگوریتم‌ها استفاده کرده و از حالتی مشابه با رم و نحوه انجام پردازش بخش‌های مختلف ورودی پیروی می‌کند. در این مورد، مدل طراحی شده می‌تواند به صورت خودکار گوینده را شناسایی کرده و مدل گفتمان او را انتخاب کند.

امکان تفکیک صدا قدمی رو به جلو در زمینه ارتقای ارتباطات است که می‌تواند مجموعه‌ای از اپلیکیشن‌ها، از پیام‌‌رسان‌های صوتی گرفته تا سیستم‌های استریم صدا را متحول کند. به علاوه متد‌های تفکیک صدای این الگو می‌تواند اصوات پس زمینه را هم تا حد بسیار زیادی کاهش دهد، تا جایی که مخاطب بتواند برای ضبط استودیویی آواز از آن استفاده کند.

پیش از این محققین فیسبوک توانسته بودند مدلی از هوش مصنوعی را طراحی کنند که قابلیت تشخیص 51 زبان مختلف را داشت. در آزمایش‌های اولیه، دقت ضبط صدا و تمییز زبان به خوبی عمل کرد. این سیستم در گذر زمان خودآموزی کرده و با استفاده از مکانیزم یادگیری ماشین پیشرفت می‌کند و می‌تواند با همراهی قابلیت جدید ارائه شده، آینده سیستم‌های ضبط صدا را دست‌خوش تغییر کند.

هوش مصنوعی جدید فیسبوک تا ۵ صدا را با کیفیت استودیویی از هم تفکیک می‌کند