سیستم تبدیل متن به گفتار IBM در 5 دقیقه صدای مصنوعی با کیفیت تولید می‌کند

آموزش مدل‌های پرقدرت تبدیل متن به گفتار نیازمند سخت‌افزار قدرتمند هستند. بر اساس گزارش‌هایی که منتشر شده است، قدرت مورد نیاز برای پردازش این متون، نسبت به سال ۲۰۱۲ حدود ۳۰۰ هزار برابر بیشتر شده است. شرکت IBM ‌در همین راستا توانسته سیستم ماژولار سبکی را توسعه دهد که تنها در ۵ دقیقه می‌توانند صدای مصنوعی را با همان کیفیت بازتولید کند.

آموزش مدل‌های پرقدرت تبدیل متن به گفتار نیازمند سخت‌افزار قدرتمند هستند. بر اساس گزارش‌هایی که منتشر شده است، قدرت مورد نیاز برای پردازش این متون، نسبت به سال 2012 حدود 300 هزار برابر بیشتر شده است. شرکت IBM ‌در همین راستا توانسته سیستم ماژولار سبکی را توسعه دهد که تنها در 5 دقیقه می‌توانند صدای مصنوعی را با همان کیفیت بازتولید کند.

سیستم تیم IBM از سه ماژول به هم پیوسته تشکیل شده است. این 3 ماژول شامل پیش‌بینی ویژگی‌های لحن گوینده، بیش‌بینی ویژگی‌های آکوستیک و یک تولید‌کننده عصبی صدا.

قابلیت پیش‌بینی ویژگی‌های لحن مدت، گام و انرژی صدا را یاد می‌گیرد. همچنین پیش‌بینی کننده ویژگی‌های آکوستیک، صدای گوینده را از داده‌های آموزشی بازتولید می‌کند. در نهایت یک تولید کننده صدا نیز با استفاده از داده‌های ماژول‌های قبلی، صدای نهایی را تولید می‌کند. تمام این اجزا با همکاری هم صدای مصنوعی را از بازتولید داده‌های کم آموزشی تولید می‌کنند.

در تستی که به کمک شنوندگان داوطلب از این صدا‌های مصنوعی به عمل آمد، محققان بر اساس امتیازدهی داوطلبان دریافتند که صدای مصنوعی تولید شده در زمان 5 دقیقه، کیفیت بالا و شباهت بسیاری با صدای اصلی گوینده دارد.

محققین IBM در این رابطه می‌گویند:

پیشرفت‌ها اخیر یادگیری عمیق بهبود‌های دراماتیکی داشته‌اند و این موضوع را مدیون توسعه سیستم‌های تبدیل متن به گفتار (TTS) هستند که در حال آموزش صدا و نحوه صحبت کردن و همچنین بازتولید صدای خروجی طبیعی هستند که به صورت بهینه و موثر صورت می‌گیرد. با این حال برای تولید صدای با کیفیت، بیشتر سیستم‌های TTS نیازمند مدل‌های شبکه‌های عصبی پیچیده هستند که آموزش آن‌‌ها هم به سادگی اتفاق نمی‌افتد. به همین دلیل تیم ما در IBM این مشکل را به کمک طراحی ماژولار حل کرده است.

نتایج و روش ماژولار این تیم، در سیستم جدید تبدیل متن به گفتار واتسون IBM استفاده شد که صدای مصنوعی با کیفیتی را تولید می‌کند. همچنین با کمک این سیستم ماژولار محققین توانستند سیستم آموزش هوش مصنوعی IBM را از یک هفته به 11 ساعت کاهش بدهند.

سیستم تبدیل متن به گفتار IBM در ۵ دقیقه صدای مصنوعی با کیفیت تولید می‌کند