آموزش مدلهای پرقدرت تبدیل متن به گفتار نیازمند سختافزار قدرتمند هستند. بر اساس گزارشهایی که منتشر شده است، قدرت مورد نیاز برای پردازش این متون، نسبت به سال 2012 حدود 300 هزار برابر بیشتر شده است. شرکت IBM در همین راستا توانسته سیستم ماژولار سبکی را توسعه دهد که تنها در 5 دقیقه میتوانند صدای مصنوعی را با همان کیفیت بازتولید کند.