هوش مصنوعی OpenAI تصاویر نصفه را به شکل خودکار تکمیل می‌کند

در جدیدترین دستاورد شرکت OpenAI، سیستم هوش مصنوعی GPT-۲ که پیش از این می‌توانست پاراگرف‌هایی معنادار از زبان انگلیسی را به صورت خودکار بنویسد، حالا با در اختیار داشتن نیمی از یک تصاویر، می‌تواند مابقی عکس را تولید و تکمیل کند.

در جدیدترین دستاورد شرکت OpenAI، سیستم هوش مصنوعی GPT-2 که پیش از این می‌توانست پاراگرف‌هایی معنادار از زبان انگلیسی را به صورت خودکار بنویسد، حالا با در اختیار داشتن نیمی از یک تصاویر، می‌تواند مابقی عکس را تولید و تکمیل کند.

حدودا یک سال پیش بود که مجموعه آزمایشگاه‌های تحقیقاتی OpenAI به سیستمی دست یافتند که می‌توانست با حروف و اعداد یادداشت یا حتی پایان‌نامه‌ای معنادار را بنویسد یا تکمیل کند. حالا محققان این تیم در تلاش هستند الگوریتمی مشابه را به سرانجام برسانند که در آن هوش مصنوعی بتواند بخش‌های مختلف یک تصاویر را تکمیل کند.

GPT-2 در واقع یک موتور قدرتمند در زمینه پیش‌بینی است؛ به همین ترتیب با پیکسل‌های بی‌شماری مبتنی بر پلتفرم آنلاین ImageNet تعلیم داده شده، تا بتواند با الگوریتمی معین، اجزای یک عکس نیمه کاره را با استفاده از موتور پیش‌بینی‌اش تکمیل کند.

از آنجایی که الگوریتم طراحی شده برای نوشتار از داده‌های تک‌بعدی (حروف) استفاده می‌کرد، محققان مجبور شده‌اند عکس‌ها را به بخش‌های مفردی از پیکسل‌های مجزا تقسیم کنند. با مدل جدیدی که iGPT نام دارد، سیستم می‌تواند ساختارهای دو بعدی را در دنیای مجازی شکل دهد. با در اختیار گرفتن یک پیکسل از یک رشته، هوش مصنوعی به صورت خودکار پیکسل دوم آن رشته را پیش بینی کرده و طوری که به چشم انسان منطقی بیاید، ادامه عکس را شکل می‌دهد.

نمونه تصاویر تولید شده توسط این هوش مصنوعی را می‌توانید در ادامه مشاهده کنید. عکس سمت چپ نمونه ناقص ارائه شده به سیستم و عکس سمت راست هم محتوای اصلی است. عکس‌های وسط هم ساختارهای تولید و پیش‌بینی شده توسط OpenAI هستند.

بدون شک نتایج این سیستم شگفت انگیز به نظر می‌رسند و در حقیقت مسیر جدیدی را برای سیستم‌های هوش مصنوعی مبتنی بر یادگیری خودکار نشان می‌دهند. پیش از این هم چنین سیستم‌هایی در دسترس بودند، اما همگی نیاز به نظارت انسانی داشتند، اما iGPT می‌تواند بدون نظارت و به صورت هوشمند فعالیت کرده و نتایجی کاملا منطقی و قابل لمس ارائه دهد.

در همین حین این متد بیانگر روش‌های نگران‌کننده جدیدی در ساخت تصاویر دیپ فیک به شمار می‌آید. تصاویر دیپ فیکی که در حال حاضر ساخته می‌شوند، به اندازه قابل توجهی تحت نظارت انسانی هستند و می‌بایست با داده‌های دقیق آموزش داده شوند. به عنوان مثال اگر بخواهید یک چهره را دیپ فیک کنید، می‌بایست اجزای آن چهره را در اختیار ماشین قرار دهید، اما iGPT به طور کلی به میلیون‌ها و میلیاردها داده پیکسلی از سراسر جهان دسترسی داشته و بدون آموزش خاصی می‌تواند مدل‌های متنوعی از یک چهره دیپ فیک را شکل دهد. هرچند در حال حاضر این مدل یادگیری به شدت گران قیمت است، اما در آینده محدودیت‌های کمتری در زمینه دسترسی خواهد داشت.

«جک کلارک» کارگردان این پروژه در رویداد دانشگاه MIT در رابطه با نسل آینده هوش مصنوعی GPT از تولید اتوماتیک ویدیو صحبت می‌کند. «احتمالا طی پنج سال آینده، تولید خودکار ویدیو با طول پنج تا ده ثانیه امکان‌پذیر خواهد بود». او حتی نمونه‌ای از تصورات خود را عنوان کرده: «تصاویری از یک سیاست‌مدار و انفجاری نزدیک به او را به سیستم آموزش دهید، خروجی کشته شدن آن سیاست‌مدار توسط انفجار را تحویل بگیرید».