مطالعهای جدید نشان میدهد که مدلهای زبانی بزرگ (LLMs) مانند GPT-4 ممکن است آیندهای در چشم پزشکی داشته باشند، اما محدودیتها و خطرات همچنان وجود دارد. محققان دانشگاه کمبریج GPT-4 را همراه با سایر LLMها را در مقایسه با چشم پزشکان انسانی در یک آزمایش ساختگی آزمایش کردند.
GPT-4 به 60 سوال از 87 سوال در آزمون پاسخ صحیح داده است
نتایج جالب بود. GPT-4 به 60 سوال از 87 سوال به درستی پاسخ داد که از عملکرد چشم پزشکان کارآموز (میانگین: 59.7) و پزشکان جوان (میانگین: 37) بیشتر بود. با این حال، از میانگین امتیاز کسبشده توسط چشم پزشکان خبره (66.4) کمتر بود. سایر LLMها مانند PalM 2 و GPT-3.5 عملکرد ضعیفتری داشتند.
در حالی که این یافتهها به مزایای بالقوه اشاره میکنند، محققان خطرات قابلتوجهی را برجسته میکنند. مجموعه سوالات محدود این مطالعه نگرانیهایی را در مورد تعمیمپذیری ایجاد می کند. مهمتر از آن، LLM ها مستعد «توهم» هستند؛ اطلاعاتی که میتواند منجر به تشخیص اشتباه بیماریهای جدی مانند آب مروارید یا سرطان شود. علاوه بر این، فقدان تفاوتهای ظریف ذاتی در LLMها میتواند تشخیصهای نادرست را تشدید کند.
این مطالعه بهوضوح بر نیاز به تحقیق و توسعه بیشتر قبل از اینکه LLMها ابزار قابل اعتمادی برای تشخیص پزشکی در نظر گرفته شوند، تأکید میکند. از آنجاییکه هر چیزی در رابطه با تشخیصهای پزشکی خطرات زیادی دارد، ممکن است لازم باشد برای مدت طولانی منتظر بمانیم تا LLMها در موقعیتهای اصلی پزشکی گنجانده شوند.
آینده ی پزشکی با هوش مصنوعی فوق العاده ست. مخصوصا اونجا که دیگه قیافه دکتر جماعت رو نمیبینی.