کمپانیهای برتر دنیای فناوری در زمینهی توسعهی سیستمهای تشخیص گفتار فعالیتهای گستردهای در حال انجام دارند و هر روز شاهد دستاوردهای جدیدی در این زمینه هستیم. IBM بهعنوان یکی از قدیمیترین و در عین حال پویاترین کمپانیهای فناوری، اعلام کرده که میزان خطای سیستم شناسایی گفتارش را به 5.5 درصد کاهش داده است. IBM موفق شده خطای سیستم خود را از 6.9 درصد به 5.5 درصد کاهش دهد که نشان از عملکرد خوب متخصصان این کمپانی دارد. بهطور حتم پیشرفت هر چه بیشتر این سیستم میتواند برای بهبود هر چه بیشتر دستیارهای صوتی هوشمند نظیر سیری و الکسا تأثیرگذار باشد.
مایکروسافت در ماه اکتبر اعلام کرد که خطای عملکرد سیستم تشخیص گفتار خود را با استفاده از مدل زبانی مبتنی بر شبکههای عصبی تا 5.9 درصد پایین آورده است. در آن زمان ردموندیها اعلام کردند که بر اساس تحقیقاتشان، خطای 5.9 درصدی مشابه عملکرد سیستم تشخیص گفتار انسان است، حال آنکه IBM به این نکته اشاره کرده که این میزان خطا در انسان وجود ندارد. جورج سان یکی از محققان IBM در این خصوص چنین اظهار نظر کرده است:
بهعنوان بخشی از فرایند رسیدن به اهدافمان، به این نتیجه رسیدهایم که خطای انسان در تشخیص گفتار پایینتر از میزانی است که تا امروز تصور میشد، بهطوریکه تحقیقات ما نشان از خطای 5.1 درصدی انسان دارد.
آی بی اِم موفق شده است به خطای 5.5 درصدی دست پیدا کند. این دستاورد حاصل بهکارگیری روشی موسوم به حافظهی بلندمدت و کوتاهمدت در کنار شبکههای عصبی و مدلهای زبانی WaveNet است. آی بی ام سیستم خود را با استفاده روش موسوم به SWITHVOARD مورد آزمایش قرار داده که شامل مجموعهای از مکالمههای تلفنی است و برای سنجش میزان عملکرد صحیح سیستمهای هوش مصنوعی در تشخیص گفتار مورد استفاده قرار میگیرد. این سیستم بنچمارک، سالها است که برای اندازهگیری سیستمهای هوش مصنوعی به کار گرفته میشود. SWITHBOARD را البته نمیتوان بهعنوان فاکتور سنجش برای بررسی میزان خطای انسان استفاده کرد.
جولیا هیرشبرگ، پرفسور دانشگاه کلمبیا در این خصوص میگوید:
توسعهی توانایی ماشینها برای تشخیص گفتار، چالشی ادامهدار است؛ مخصوصا این چالش بزرگ زمانی پررنگتر میشود که بدانیم مکالمات انسانها بهصورت ذاتی دارای پیچیدگیهای خاصی هستند. علاوه بر چالشبرانگیز بودن تشخیص گفتار انسان، بررسی عملکرد نیز بسیار پیچیده است، چراکه عملکرد انسانها در تشخیص گفتار کاملا پراکنده است و هر فردی در مقایسه با دیگری، بازده خاصی از خود به نمایش میگذارد.
نظر شما در این خصوص چیست؟