مدلهای جدید هوش مصنوعی OpenAI با نامهای o3 و o4 مینی در بسیاری از جنبهها پیشرفته هستند. مدل های استدلالی جدید OpenAI همچنان دچار توهم میشوند؛ به این معنی که اطلاعات نادرست تولید میکنند. ظاهراً حتی بیشتر از برخی مدلهای قدیمیتر OpenAI این اتفاق رخ میدهد.
توهم یا تولید اطلاعات نادرست یکی از بزرگترین و پیچیدهترین مشکلات در حوزه هوش مصنوعی است که حتی سیستمهای پیشرفته امروزی را نیز تحت تأثیر قرار میدهد. بهطور تاریخی، هر مدل جدید معمولاً از نظر کاهش توهم کمی بهتر از مدل قبلی خود عمل میکند. اما به نظر میرسد این موضوع برای o3 و o4 مینی صدق نمیکند.
براساس آزمایشهای داخلی OpenAI، مدلهای o3 و o4 مینی، که بهعنوان مدلهای استدلالی شناخته میشوند، بیشتر از مدلهای استدلالی قبلی این شرکت، یعنی o1، o1 مینی، و o3 مینی و حتی بیشتر از مدلهای سنتی و غیر استدلالی مانند GPT-4o دچار توهم میشوند.
چرا مدل های استدلالی OpenAI دچار توهم میشوند؟
نکته نگرانکنندهتر این است که سازندگان ChatGPT دقیقاً نمیدانند چرا این اتفاق میافتد. در گزارش فنی مدلهای o3 و o4 مینی، OpenAI مینویسد که برای درک علت افزایش توهم در مقیاسبندی مدلهای استدلالی نیاز به تحقیقات بیشتری وجود دارد. این مدلها در برخی زمینهها، مانند وظایف مربوط به کدنویسی و ریاضیات، عملکرد بهتری دارند. اما از آنجا که بهطور کلی اطلاعات بیشتری ارائه میدهند، اغلب ادعاهای نادرست/توهمی بیشتر تولید میکنند.

طبق گزارش OpenAI، مدل o3 در 33٪ از پرسشها در PersonQA که یک معیار داخلی برای اندازهگیری دقت دانش مدل در مورد انسانهاست، دچار توهم شده است. این رقم تقریباً دوبرابر نرخ توهم مدلهای استدلالی قبلی OpenAI، یعنی o1 و o3 مینی است که بهترتیب 16٪ و 14.8٪ بودند. مدل o4 مینی حتی بدتر عمل کرد و در 48٪ از موارد توهم داشت.
آزمایشهای مستقل توسط آزمایشگاه تحقیقاتی Transluce نیز شواهدی یافت که نشان میدهد مدل o3 تمایل به ساختن جزئیات فرآیندهایی دارد که در رسیدن به پاسخها بهکار گرفته است. برای مثال، Transluce مشاهده کرد که o3 ادعا میکند روی یک MacBook Pro مدل 2021 خارج از ChatGPT کدی اجرا کرده و سپس نتایج را در پاسخ خود کپی کرده است. در حالی که o3 به برخی ابزارها دسترسی دارد، چنین کاری از عهده آن خارج است.
نیل چودری، یکی از پژوهشگران Transluce و کارمند سابق OpenAI گفت: فرضیه ما این است که نوع یادگیری تقویتی مورداستفاده در مدلهای سری o ممکن است مشکلاتی را تشدید کند که معمولاً با فرآیندهای استاندارد پس از آموزش کاهش مییابند، اما بهطور کامل از بین نمیروند.
سارا شوتمان، یکی از بنیانگذاران Transluce، اضافه کرد که نرخ توهم بالای o3 ممکن است باعث شود که این مدل کمتر از آنچه که باید مفید باشد.
کیان کاتنفروش، استاد مدعو دانشگاه استنفورد و مدیرعامل شرکت Workera که در زمینه ارتقای مهارتها فعالیت میکند، توضیح داد که تیم او در حال آزمایش مدل o3 در فرآیندهای کدنویسی خود بوده و متوجه شدهاند که این مدل از رقبای خود برتر است. با این حال، کاتنفروش اشاره کرد که o3 تمایل به تولید لینکهای خراب برای وبسایتها دارد. مدل لینکهایی ارائه میدهد که هنگام کلیککردن، کار نمیکنند.
توهم ممکن است به مدل های استدلالی جدید OpenAI کمک کند تا به ایدههای جالب برسند و در تفکر خلاق باشند، اما این ویژگی باعث میشود که برخی مدلها برای کسبوکارهایی که دقت اولویت اصلی است، گزینه نامناسبی باشند. برای مثال، یک شرکت حقوقی احتمالاً از مدلی که خطاهای واقعی زیادی در قراردادهای مشتری وارد میکند، رضایت نخواهد داشت.
یکی از رویکردهای امیدوارکننده برای افزایش دقت مدلها، ارائه قابلیتهای جستجوی وب به آنهاست. GPT-4o شرکت OpenAI با قابلیت جستجوی وب به دقت 90٪ در معیار SimpleQA، یکی دیگر از معیارهای دقت OpenAI، دست مییابد. احتمالاً جستجو میتواند نرخ توهم مدلهای استدلالی را نیز بهبود بخشد؛ حداقل در مواردی که کاربران حاضر باشند درخواستهای خود را در اختیار یک ارائهدهنده جستجوی ثالث قرار دهند.
اگر افزایش مقیاس مدلهای استدلالی همچنان باعث بدترشدن توهمات شود، یافتن راهحل برای این مشکل ضرورت بیشتری پیدا خواهد کرد.
نیکو فلیکس گقت حل مسئله توهم در تمامی مدلهای ما یک حوزه تحقیقاتی است و ما بهطور پیوسته درحال تلاش برای بهبود دقت و قابلیت اطمینان آنها هستیم.
در سال گذشته، صنعت هوش مصنوعی بهطور گستردهای به مدلهای استدلالی روی آورده است، چرا که تکنیکهای بهبود مدلهای سنتی شروع به نشاندادن بازده کاهشی کردهاند. استدلال باعث بهبود عملکرد مدلها در طیف گستردهای از وظایف میشود؛ بدون نیاز به مقادیر عظیمی از محاسبات و دادهها در طول آموزش. با این حال، به نظر میرسد که استدلال ممکن است باعث افزایش توهم شود که یک چالش جدید را ایجاد میکند.
دیدگاهتان را بنویسید