توانایی های تشخیص گفتار فعلی آنطور که باید و شاید تکامل یافته نیستند و نیازمند حجم عظیمی از حاشیه نویسی و رونوشت هستند تا قادر به درک آنچه بیان می شود باشند. با این حال ممکن است راهکاری طبیعی تر برای این مشکل وجود داشته باشد: آموزش دادن تشخیص اشیا به الگوریتم ها به همان شکلی که به کودکان آموزش داده می شود.
محققان اخیراً سیستم یادگیری ماشینی تازه ای توسعه داده اند که می تواند اشیای داخل یک تصویر را براساس توضیحات کلامی شان شناسایی کند. به عنوان مثال کافی است به یک تی شرت آبی رنگ در یک تصویر اشاره کنید و هوش مصنوعی قادر هایلایت این لباس بدون نیاز به یه هیچگونه رونوشت متنی است.
این تیم از محققان کار خود را با رویکردی سنتی تر آغاز کرد؛ زمانی که دو شبکه عصبی به پردازش تصاویر و گفتار می پردازند و تطابق دادن کپشن های صوتی را با تصاویری که سوژه ای خاص را در خود جای داده اند می آموزند. با این حال محققان چگونگی پردازش تصویر از سوی شبکه عصبی را به گونه ای تغییر داده اند که تصاویر را به به سلول هایی مشبک تقسیم می کند و شبکه صوتی هم همین کار را با اسپکتوگرام انجام می دهد.
بعد از تطابق تصویر صحیح با کپشن صحیح، پروسه آموزش امتیازی به عملکرد سیستم هوش مصنوعی اعطا می کند. در غایی ترین حالت، این روش مانند زمانی است که با نشان دادن و گفتن نام یک شی، به کودکان توضیح می دهید در حال نگاه کردن به چه چیزی هستند.
این روش می تواند چندین استفاده احتمالی داشته باشد اما محققان بیش از هر چیز به بررسی پتانسیل های آن در ترجمه متون تمایل دارند. به جای استفاده از یک تفسیر نویس دو زبانه برای برقراری ارتباط، می توانید از مردم بخواهید به زبان های مختلف سوژه ای یکسان را تشریح کنند؛ در این صورت سیستم هوش مصنوعی فرض را بر این می گذارد که یک توضیح، ترجمه توضیح دیگر است. به این ترتیب، تشخیص گفتار برای زبان های بسیار بیشتری در دسترس قرار می گیرد.