آموزش مدلهای پرقدرت تبدیل متن به گفتار نیازمند سختافزار قدرتمند هستند. بر اساس گزارشهایی که منتشر شده است، قدرت مورد نیاز برای پردازش این متون، نسبت به سال 2012 حدود 300 هزار برابر بیشتر شده است. شرکت IBM در همین راستا توانسته سیستم ماژولار سبکی را توسعه دهد که تنها در 5 دقیقه میتوانند صدای مصنوعی را با همان کیفیت بازتولید کند.
سیستم تیم IBM از سه ماژول به هم پیوسته تشکیل شده است. این 3 ماژول شامل پیشبینی ویژگیهای لحن گوینده، بیشبینی ویژگیهای آکوستیک و یک تولیدکننده عصبی صدا.
قابلیت پیشبینی ویژگیهای لحن مدت، گام و انرژی صدا را یاد میگیرد. همچنین پیشبینی کننده ویژگیهای آکوستیک، صدای گوینده را از دادههای آموزشی بازتولید میکند. در نهایت یک تولید کننده صدا نیز با استفاده از دادههای ماژولهای قبلی، صدای نهایی را تولید میکند. تمام این اجزا با همکاری هم صدای مصنوعی را از بازتولید دادههای کم آموزشی تولید میکنند.
در تستی که به کمک شنوندگان داوطلب از این صداهای مصنوعی به عمل آمد، محققان بر اساس امتیازدهی داوطلبان دریافتند که صدای مصنوعی تولید شده در زمان 5 دقیقه، کیفیت بالا و شباهت بسیاری با صدای اصلی گوینده دارد.
محققین IBM در این رابطه میگویند:
پیشرفتها اخیر یادگیری عمیق بهبودهای دراماتیکی داشتهاند و این موضوع را مدیون توسعه سیستمهای تبدیل متن به گفتار (TTS) هستند که در حال آموزش صدا و نحوه صحبت کردن و همچنین بازتولید صدای خروجی طبیعی هستند که به صورت بهینه و موثر صورت میگیرد. با این حال برای تولید صدای با کیفیت، بیشتر سیستمهای TTS نیازمند مدلهای شبکههای عصبی پیچیده هستند که آموزش آنها هم به سادگی اتفاق نمیافتد. به همین دلیل تیم ما در IBM این مشکل را به کمک طراحی ماژولار حل کرده است.
نتایج و روش ماژولار این تیم، در سیستم جدید تبدیل متن به گفتار واتسون IBM استفاده شد که صدای مصنوعی با کیفیتی را تولید میکند. همچنین با کمک این سیستم ماژولار محققین توانستند سیستم آموزش هوش مصنوعی IBM را از یک هفته به 11 ساعت کاهش بدهند.