دکتر گوگل یا چت جی‌پی‌تی؛ کدام یک بیماری را بهتر تشخیص می‌دهند؟

محققان پاسخ‌های چت جی‌پی‌تی را نه تنها از نظر دقت، بلکه از نظر وضوح و ارتباط نیز ارزیابی کردند. به طرز شگفت‌آوری، تنها ۵۲ درصد از پاسخ‌ها مرتبط با سناریوهای بالینیِ ارائه شده طبقه‌بندی شدند.

یافته‌های یک مطالعه جدید نشان می‌دهد که چت جی‌پی‌تی در تشخیص بیماری عملکرد متوسطی دارد و تنها در 49 درصد موارد درست عمل می‌کند.

به گزارش ایسنا، به نقل از آنا؛ محققان می‌گویند بر اساس یافته‌های آنها هوش مصنوعی نباید تنها منبع اطلاعات پزشکی باشد و حفظ عامل انسانی در مراقبت‌های بهداشتی همچنان پراهمیت است. به دلیل راحتی دسترسی به فناوری آنلاین برخی از افراد مراجعه به پزشک مراجعه نمی‌کنند و به جای آن علائم خود را در گوگل جستجو می‌کنند. اهمیت دادن به سلامتی بسیار مهم است، اما «دکتر گوگل» آنقدرها هم دقیق نیست!

یک مطالعه استرالیایی در سال 2020 که بر روی 36 جستجوگر علائم بیماری در وب انجام شد، نشان داد که تشخیص اولیه فقط در 36 درصد موارد صحیح بوده است.

بی‌شک، هوش مصنوعی از سال 2020 بهبود یافته و اُپن‌ای آی نیز به سرعت پیشرفت کرده است، اما آیا از نظر دقت تشخیص، بهتر از دکتر گوگل است؟ این پرسشی است که محققان دانشگاه وسترن در کانادا برای پاسخ به آن یک مطالعه علمی انجام دادند.

در این پرژه علمی، یا استفاده از چت جی‌پی‌تی 3.5 یک مدل بزرگ زبانی بر روی محموعه عظیمی از داده‌ها آموزش داده می‌شود. این داده‌ها شامل بیش از 400 میلیارد کلمه از منابعی شامل کتاب‌ها، مقاله‌ها و وب‌سایت‌ها بودند. سپس محققان اطلاعات پزشکی ارائه شده توسط چت‌بات را از نظر کیفی تجزیه وتحلیل کردند.

چالش‌های موردی بررسی شده در این مطالعه علمی با عنوان مِد اسکیپ (Medscape)، موارد پیچیده بالینی هستند که دانش و مهارت‌های تشخیصی یک متخصص پزشکی را به چالش می‌کشند. متخصصان پزشکی موظفند با انتخاب از بین چهار پاسخ، تشخیص پزشکی انجام دهند یا طرح درمانی مناسب را برای یک مورد انتخاب کنند.

محققان، مِد اسکیپ را انتخاب کردند، زیرا متن باز و آزادانه‌ای دارد و برای جلوگیری از این احتمال که چت جی‌پی‌تی اطلاعاتی از قبل داشته باشد، فقط مواردی که پس از آموزش مدل 3.5 در آگوست 2021 ثبت شده بودند لحاظ شدند.

در تحقیقات خود، این تیم پاسخ‌های ایجاد شده توسط چت جی‌پی‌تی 3.5 را با بررسی 150 مورد بالینیِ پیچیده که از مِداسکیپ، یک پلتفرم اطلاعات پزشکی شناخته شده، به دست آمده بود را تجزیه و تحلیل کردند. این موارد نیاز به هوش مصنوعی داشت که بر اساس یک سری گزینه‌های چهارجوابی تشخیص دهد. چت جی‌پی‌تی در 49 درصد موارد تجزیه و تحلیل شده موفق به ارائه پاسخ‌های صحیح شد و دقت کلی آن تا حد زیادی به دلیل توانایی آن در تشخیص موثر و حذف گزینه‌های پاسخ نادرست به 74 درصد افزایش یافت.

علاوه بر این، محققان پاسخ‌های چت جی‌پی‌تی را نه تنها از نظر دقت، بلکه از نظر وضوح و ارتباط نیز ارزیابی کردند. به طرز شگفت‌آوری، تنها 52 درصد از پاسخ‌ها مرتبط با سناریوهای بالینیِ ارائه شده طبقه‌بندی شدند.

اگرچه پاسخ‌ها معمولاً بار شناختی کم تا متوسطی را نشان می‌دهند، این ماهیت سادۀ پاسخ‌ها می‌تواند منجر به سوء تفاهم یا تصورات نادرست شود، به خصوص اگر هوش مصنوعی به عنوان ابزاری برای آموزش پزشکی یا مشاوره بیمار استفاده شود. این مطالعه به وضوح نشان داد که چت جی‌پی‌تی این پتانسیل را دارد که گهگاه اطلاعاتی را تولید کند که نادرست یا غیرقابل قبول است، پدیده‌ای که معمولاً به عنوان «توهمات هوش مصنوعی» شناخته می‌شود.

محققان همچنین بیان کردند که چت جی‌پی‌تی 3.5 تنها یک تکرار از فناوری هوش مصنوعی را نشان می‌دهد و ممکن است با پیشرفت‌های آینده دقیق‌تر و قابل اطمینان‌تر شود. با این وجود، نتایج این مطالعه تأکید دارد که در خصوص استفاده از هوش مصنوعی برای راهنمایی پزشکی باید محتاطانه عمل کرد. هوش مصنوعی می‌تواند به راحتی اطلاعات گمراه‌کننده یا نادرست تولید کند و در نهایت، مجموع یافته‌ها بر اهمیت مشارکت و نظارت انسانی در فرایند تشخیص بیماری و مراقبت‌های بهداشتی تأکید داشتند.

این گزارش از پایگاه اینترنتی نیواطلس به فارسی برگردان شده است.

کانال عصر ایران در تلگرام

بیشتر بخوانید:

پر تکرارترین سوال هایی که در سال 2017 مردم از دکتر گوگل پرسیدند چه بود؟

«دکتر گوگل» از راه رسید

تماشاخانه