به گزارش ایسنا و به نقل از تکاکسپلور، گروههای پژوهشی سراسر جهان در سالهای اخیر از یکی از گرایشهای یادگیری ماشینی موسوم به "یادگیری تقویتی"(Reinforcement learning) استفاده کردهاند تا نحوه انجام دادن وظایف گوناگون را به رباتها آموزش دهند اما آموزش این الگوریتمها میتواند بسیار چالشبرانگیز باشد زیرا به تلاشهای اساسی انسان در تعریف وظایف برای ربات نیازمند است.
یکی از روشهای آموزش رباتها برای انجام وظایف گوناگون این است که این آموزش به واسطه فعالیتهای انسانی صورت بگیرد. این روش، بسیار دشوار به نظر میرسد زیرا رباتها و انسانها، بدنهای متفاوتی دارند و میتوانند حرکات متفاوتی انجام دهند.
پژوهشگران "دانشگاه کالیفرنیا، برکلی"(UC Berkeley) اخیرا چارچوب جدیدی ابداع کردهاند که شاید بتواند بر برخی از چالشهای مربوط به آموزش رباتها غلبه کند. این چارچوب موسوم به "AVID"، بر پایه دو مدل یادگیری عمیق ابداع شده که مبتنی بر بررسی پیشین این پژوهشگران هستند.
"لائورا اسمیت"(Laura Smith)، از پژوهشگران این پروژه گفت: ما برای ابداع AVID، بر دو پژوهش اخیر خود موسوم به "CycleGAN" و "SOLAR" تمرکز کردیم که برای مشخص کردن محدودیتهای بنیادی در حوزه آموزش به رباتها انجام شدهاند.
اسمیت و همکارانش به جای استفاده از روشهایی که به تفاوت میان بدن ربات و انسان توجه نمیکنند، روش Cycle-GAN"" را به کار بردند که میتواند تصاویر را در قالب پیکسل تغییر دهد. این روش توانست روش کار انسان در انجام دادن یک وظیفه را به صورت ویدئوهایی از یک ربات ارائه دهد که همان کار را انجام میدهد. آنها سپس از این ویدئو برای ابداع یک عملکرد پاداش برای الگوریتم یادگیری تقویتی استفاده کرددند.
اسمیت افزود: AVID رباتی را شامل میشود که عملکرد انسان را برای انجام دادن یک وظیفه مورد بررسی قرار میدهد و سپس تصور میکند که انجام گرفتن این کار توسط ربات چگونه خواهد بود. ما برای یاد گرفتن نحوه دستیابی به این موفقیت، به ربات اجازه دادیم تا خودش کار را به واسطه آزمون و خطا یاد بگیرد.
ربات با استفاده از چارچوب ابداع شده توسط اسمیت و همکارانش توانست وظایف را فورا در مرحله نخست یاد بگیرد و آن را دوباره بدون نیاز به کمک انسان تکرار کند. فرآیند یادگیری با یادگیری مهارتهای جدید توسط ربات و حداقل دخالت انسان، تا اندازه زیادی خودکار شد.
اسمیت ادامه داد: یکی از مزایای اصلی روش ما این است که یک آموزگار انسان میتواند با دانشآموز ربات خود تعامل داشته باشد. ما چارچوب یادگیری خود را طوری طراحی کردهایم که قابلیت یادگیری رفتار بلندمدت را با کمترین میزان تلاش داشته باشد.
پژوهشگران، روش خود را در مجموعهای از آزمایشها مورد بررسی قرار دادند و دریافتند که این روش میتواند نحوه انجام دادن کارها را به صورت کارآمد به رباتها آموزش دهد.