به گزارش ایسنا و به نقل از تکنولوژی، ما در جهان دادهها زندگی میکنیم. بیشتر ابزار مورد استفاده ما، هوشمند هستند و کلیدها و حسگرهای گوناگونی دارند که دادهها را تحلیل میکنند و با روشهای متفاوتی به کار میبرند. در چنین شرایطی، ممکن است دادههای اشتباه هم وجود داشته باشند و ارسال شوند؛ در نتیجه نیاز به شناسایی دادههای اشتباه و پاکسازی این دادههای موسوم به "دادههای کثیف" احساس میشود. پژوهشگران "دانشگاه واترلو" (UWaterloo)، "دانشگاه ویسکانسین- مدیسن"(UW–Madison) و "دانشگاه استنفورد" (Stanford University)، ابزاری ابداع کردهاند که میتواند دادههای کثیف را شناسایی و حذف کند.
دادههای کثیف، نویزهایی هستند که با حسگرها یا الگوریتمهای گوناگونی گردآوری میشوند. سیستمی که دادههای یک وبسایت را تحلیل میکند، میتواند به همه انواع اطلاعات دست یابد اما لزوماً همه دادهها، واقعی نیستند و شاید فقط نویزهایی باشند که در همه سیستمهای الکترونیکی وجود دارند.
این ابزار جدید موسوم به "هولوکلین"(HoloClean)، نخستین فناوری مبتنی بر هوش مصنوعی است که میتواند دادههای کثیف را تشخیص دهد و آنها را پیش از گذشتن از مرحله پردازش، تصحیح کند. دانشمندان باور دارند که این ابزار میتواند برای سازمانهای گوناگونی که با حجم گستردهای از دادهها کار میکنند، مفید باشد.
بانکها، شرکتهای فعال در حوزه نرمافزار و بسیاری شرکتهای دیگر، با مجموعه بزرگی از دادهها سر و کار دارند. طبیعی است که در این مجموعه بزرگ، دادههای غیر مرتبط و یا اشتباه هم وجود داشته باشند. هولوکلین را میتوان طوری آموزش داد که اشتباهات را شناسایی و آنها را تصحیح کند.
آموزش هوش مصنوعی، به تنهایی یک فرآیند طولانی محسوب میشود اما هولوکلین میتواند با سرعت کمتری دادهها را مورد بررسی قرار دهد، اشتباهات را تفکیک و آنها را تصحیح کند. این قابلیت، مجموعه داده پاکی را برای کاربران فراهم میکند تا تجزیه و تحلیل خود را به سادگی انجام دهند و نهایتاً نتایج دقیقتر و معتبرتری به دست آورند.
شناسایی و تصحیح دادهها تا به امروز به صورت دستی انجام شده است. این روش، به زمان و هزینه بیشتری نیاز دارد و دقت کامل را نیز ندارد. دانشمندان امیدوارند که هولوکلین کمک کند تا این کار، به سادگی و با سرعت و دقت بیشتری انجام شود.
سیستمهای کنونی، مشکل را در قسمتی گزارش میکنند که خالی از اطلاعات است اما این روش درست نیست. هولوکلین به جای ارائه اطلاعاتی که وجود ندارند، اطلاعات اشتباهی که درست جلوه میکنند، شناسایی و حذف میکند.