مهندسین فیسبوک موفق به طراحی مدلی از هوش مصنوعی شدهاند که میتواند در آن واحد صدای پنج نفر مختلف را تشخیص دهد، و سپس آنها را به متن تبدیل کرده یا از هم تفکیک و جداگانه ذخیره کند.
طبق مدارک و توضیحات منتشر شده در github، محققین گروه هوش مصنوعی شبکه اجتماعی متعلق به مارک زاکربرگ موفق شدهاند مدلی طراحی کنند که در یک مکالمه گروهی میتواند صدای پنج نفر مختلف را تشخیص داده و نه تنها آن را به متن تبدیل، بلکه در پنج فایل جداگانه ذخیره سازی کند. این تیم مدعی است متد جدید طراحی شده از نظر کیفیت و سرعت جداسازی منابع صوتی، کاهش نویز و تثبیت عمق از تمام سیستمهای موجود کیفیت بالاتری دارد.
فیسبوک از سیستم عصبی جدیدی برای ساخت کلاسی از الگوریتمها استفاده کرده و از حالتی مشابه با رم و نحوه انجام پردازش بخشهای مختلف ورودی پیروی میکند. در این مورد، مدل طراحی شده میتواند به صورت خودکار گوینده را شناسایی کرده و مدل گفتمان او را انتخاب کند.
امکان تفکیک صدا قدمی رو به جلو در زمینه ارتقای ارتباطات است که میتواند مجموعهای از اپلیکیشنها، از پیامرسانهای صوتی گرفته تا سیستمهای استریم صدا را متحول کند. به علاوه متدهای تفکیک صدای این الگو میتواند اصوات پس زمینه را هم تا حد بسیار زیادی کاهش دهد، تا جایی که مخاطب بتواند برای ضبط استودیویی آواز از آن استفاده کند.
پیش از این محققین فیسبوک توانسته بودند مدلی از هوش مصنوعی را طراحی کنند که قابلیت تشخیص 51 زبان مختلف را داشت. در آزمایشهای اولیه، دقت ضبط صدا و تمییز زبان به خوبی عمل کرد. این سیستم در گذر زمان خودآموزی کرده و با استفاده از مکانیزم یادگیری ماشین پیشرفت میکند و میتواند با همراهی قابلیت جدید ارائه شده، آینده سیستمهای ضبط صدا را دستخوش تغییر کند.