بدافزارهای مخرب در باطن نرم افزارهای به ظاهر بیخطر و کدهای برنامه نویسی شده در قالب شکلکها باعث شده است تا نبرد ایجاد امنیت در تلفنهای هوشمند هیچگاه به پایان نرسد. هر روش جدید تعاملی، حال فرمان صوتی باشد یا یک شناسه منحصر به کاربر، مانند سنسور تشخیص اثر انگشت یا تشخیص چهره، امکان جدیدی جهت دسترسی و کنترل تجهیزات توسط هکرها ایجاد میکند.
تلاش محققان در دانشگاه برکلی و جورج تاون در جهت بررسی دقیق آسیبپذیری نرمافزارهای تشخیص صدا در سال گذشته نشان از این دارد که بسیاری از دستگاهها از این نرمافزارها بهره میبرند. آنها روی نرمافزار دستیار گوگل تمرکز کردهاند؛ این قابلیت به صورت گسترده در اندروید و نرمافزارهای گوگل در سیستمعامل آیاواس فعالیت دارد. توسعه راهی برای تحریف فرامین صوتی به اندازهای که دستیار گوگل قادر به تشخیص آن باشد کافی است، در حالی که بسیاری از افراد متوجه خطر ساز بودن آن نمیشوند.
محققان سعی در آزمایش فرامین صوتی با کلماتی مبهم مانند "اوکیگوگل" در نرمافزار تشخیص صدای گوگل کردند تا میزان خطای تشخیص کلمات توسط نرمافزار را نسبت به انسان اندازه گیری کنند. در آزمایش انسانی، تنها 22 درصد از افراد قادر به شناسایی کلمه مبهم بودند؛ ولی در آزمایش دستیار گوگل، 95 درصد کلمات مبهم توسط نرمافزار شناسایی شدند. این آزمایش نشان داد که قدرت تشخیص نرم افزار در کلمات مبهم و پیچیده نسبت به انسان بیشتر است.
در نگاه اول، بسیاری از دستورات صوتی بیان شده ممکن است در طرز یا سرعت بیان کردن کلمات مبهم ارایه شده باشد؛ بهعنوان یک انسان، شناسایی کلمات مبهم که قبلا بیان صحیح آنها را شنیدهایم کارآسانی است، ولی شناسایی کلماتی که حضور ذهنی در مورد آنها نداریم کمی سختتر خواهد بود.
این مطالعه نشان میدهد که تشخیص و شناسایی کلمات ترکیبی، از سایر کلمات آسانتر است. بهعنوان مثال "تماس با 911" یک کلمه ترکیبی است که انسان با نرخ 94 درصد و سیستم تشخیص گفتار گوگل با نرخ 40 درصد قادر به تشخیص آن بوده است، این موضوع شاید به خاطر آن باشد که افراد انگلیسی زبان کلمات ارایه شده را قبلا شنیدهاند.
اما تغییر ترکیب دستورات و ساخت ترکیب صحیحی از کلمات با همان دستور قبلی کافی است تا دستیار صوتی آن را بهگونهای دیگر شناسایی کند و این موضوع با توجه به کنترل صدا در بسیاری از دستگاههای مصرف کننده که فاقد هر گونه احراز هویت هستند، خطری آشکار به حساب خواهد آمد.
روشهای مقابله با هک صوتی
یکی از اقدامات پیشگیرانه هک شدن دستگاه از طریق فرمان صوتی، تنظیم دستیار صوتی برای درخواست تایید پس از هر دستور صوتی است. البته این تحقیق مانند بیرون کشیدن یک نقطه از نقاط در یک اقیانوس است.
تعدادی از دستورات ترکیبی که شناسایی آنها برای ما آسانتر است:
تیم اکتشاف، فعالیت خود را در نرمافزار دستیار گوگل، سیری اپل و الکسای آمازون که می توانند مورد حملات قرار گیرند، دنبال کردند. البته هر یک از این شرکتها میتوانند راه متفاوتی در جهت مقابله با هک صوتی پیادهسازی کنند. برخی از روشهای محافظت، همچون استفاده از تایید صوتی یا همان کپچا (امضای دیجیتال – کد امنیتی تایید) می تواند به عنوان تایید نهایی در تفکیک انسان از ماشین عمل کند. البته محققان به این موضوع اشاره میکنند که الگوریتمهای ارایه شده در تایید کد امنیتی صوتی (کپچا) منسوخ شدهاند و مطابق با پیشرفت نرمافزارهای کنونی نیستند.
میتوان از روش پیچیدهتری همچون تشخیص و شناسایی صدای صاحب دستگاه استفاده کرد، البته پیشتر بسیاری از دستگاهها به صورت محدود این مورد را عرضه کردهاند، گزارشها نشان میدهد که این موضوع نیازمند آموزش کار با دستگاه به کاربران است، همچنین در دستگاههایی با کاربران مشترک (مانند اکو آمازون) این مورد مشکلاتی ایجاد خواهد نمود. گروه تحقیقاتی یکی از عملیترین و موثرترین روشهای مقابله با هک صوتی را استفاده از فیلترهای تشخیص فرامین صوتی کیفیت پایین و غیر قابل شناسایی دانست.
البته با اینکه که گزارش حملات مبتنی بر صوت و از این نوع معمول نیست، حتی اگر وجود هم نداشته باشد، همیشه می تواند منجر به پیشگیری بروز مشکلات در بسیاری از مکان های آسیب پذیر شود.