موضوعات داغ
  • نمایشگاه کامپیوتکس ۲۰۲۵
  • بازی GTA VI
  • هوش مصنوعی
  • استارلینک
  • چت‌بات‌ها
  • دینو
سخت افزار مگ
  • اخبار و مقالات
    • گوشی موبایل
      • لوازم جانبی موبایل
    • تبلت
    • لپ تاپ
    • دسکتاپ
      • مادربرد
      • پردازنده مرکزی
      • کارت گرافیک
      • تجهیزات ذخیره سازی
      • حافظه
      • صفحه نمایش
      • تجهیزات جانبی
    • تصویرگری دیجیتال
    • صوتی و تصویری
    • شبکه
    • نرم افزار و بازی
    • کالبدشکافی قطعات
    • مطالب گوناگون
  • لیست قیمت
    • گوشی موبایل
      • لیست قیمت روز گوشی‌های سامسونگ
      • لیست قیمت روز گوشی‌های شیائومی
      • لیست قیمت روز گوشی‌های هواوی
      • لیست قیمت روز گوشی های آنر
    • تبلت
    • لپ‌تاپ
    • قطعات کامپیوتر
      • لیست قیمت پردازنده
    • محصولات اپل
    • تجهیزات شبکه
    • لوازم خانگی
    • صوتی و تصویری
    • دوربین دیجیتال
    • تجهیزات بازی
    • خودرو
  • بررسی
    • بررسی گوشی موبایل
    • بررسی تبلت
    • بررسی لپ تاپ
    • دسکتاپ
      • بررسی کولر و فن
      • بررسی مادربرد
      • بررسی کارت گرافیک
      • بررسی تجهیزات ذخیره سازی
      • بررسی حافظه
      • بررسی منبع تغذیه و کیس
      • بررسی تجهیزات جانبی
      • بررسی صفحه نمایش
    • بررسی تصویرگری دیجیتال
    • بررسی صوتی و تصویری
    • بررسی شبکه
    • بررسی نرم افزار و بازی
    • بررسی گوناگون
  • راهنمای خرید
    • سیستم پیشنهادی
  • دانلود
  • ویژه
    • مسابقات
    • نمایشگاه
تبلیغات
تبلیغات
تبلیغات

اخبار و مقالات / مطالب گوناگون

مدل‌ های استدلالی جدید OpenAI بیشتر دچار توهم می‌شوند

Avatarتوسط مهرانه راجعی ·30 فروردین 140430 فروردین 1404· 0

مدل‌های جدید هوش مصنوعی OpenAI با نام‌های o3 و o4 مینی در بسیاری از جنبه‌ها پیشرفته هستند. مدل‌ های استدلالی جدید OpenAI همچنان دچار توهم می‌شوند؛ به این معنی که اطلاعات نادرست تولید می‌کنند. ظاهراً حتی بیشتر از برخی مدل‌های قدیمی‌تر OpenAI این اتفاق رخ می‌دهد.

توهم یا تولید اطلاعات نادرست یکی از بزرگ‌ترین و پیچیده‌ترین مشکلات در حوزه هوش مصنوعی است که حتی سیستم‌های پیشرفته امروزی را نیز تحت تأثیر قرار می‌دهد. به‌طور تاریخی، هر مدل جدید معمولاً از نظر کاهش توهم کمی بهتر از مدل قبلی خود عمل می‌کند. اما به نظر می‌رسد این موضوع برای o3 و o4 مینی صدق نمی‌کند.

براساس آزمایش‌های داخلی OpenAI، مدل‌های o3 و o4 مینی، که به‌عنوان مدل‌های استدلالی شناخته می‌شوند، بیشتر از مدل‌های استدلالی قبلی این شرکت، یعنی o1، o1 مینی، و o3 مینی و حتی بیشتر از مدل‌های سنتی و غیر استدلالی مانند GPT-4o دچار توهم می‌شوند.

چرا مدل‌ های استدلالی OpenAI دچار توهم می‌شوند؟

نکته نگران‌کننده‌تر این است که سازندگان ChatGPT دقیقاً نمی‌دانند چرا این اتفاق می‌افتد. در گزارش فنی مدل‌های o3 و o4 مینی، OpenAI می‌نویسد که برای درک علت افزایش توهم در مقیاس‌بندی مدل‌های استدلالی نیاز به تحقیقات بیشتری وجود دارد. این مدل‌ها در برخی زمینه‌ها، مانند وظایف مربوط به کدنویسی و ریاضیات، عملکرد بهتری دارند. اما از آنجا که به‌طور کلی اطلاعات بیشتری ارائه می‌دهند، اغلب ادعاهای نادرست/توهمی بیشتر تولید می‌کنند‌.

مدل‌ های استدلالی جدید OpenAI بیشتر دچار توهم می‌شوند

طبق گزارش OpenAI، مدل o3 در 33٪ از پرسش‌ها در PersonQA که یک معیار داخلی برای اندازه‌گیری دقت دانش مدل در مورد انسان‌هاست، دچار توهم شده است. این رقم تقریباً دوبرابر نرخ توهم مدل‌های استدلالی قبلی OpenAI، یعنی o1 و o3 مینی است که به‌ترتیب 16٪ و 14.8٪ بودند. مدل o4 مینی حتی بدتر عمل کرد و در 48٪ از موارد توهم داشت.

آزمایش‌های مستقل توسط آزمایشگاه تحقیقاتی Transluce نیز شواهدی یافت که نشان می‌دهد مدل o3 تمایل به ساختن جزئیات فرآیندهایی دارد که در رسیدن به پاسخ‌ها به‌کار گرفته است. برای مثال، Transluce مشاهده کرد که o3 ادعا می‌کند روی یک MacBook Pro مدل 2021 خارج از ChatGPT کدی اجرا کرده و سپس نتایج را در پاسخ خود کپی کرده است. در حالی که o3 به برخی ابزارها دسترسی دارد، چنین کاری از عهده آن خارج است.

نیل چودری، یکی از پژوهشگران Transluce و کارمند سابق OpenAI گفت: فرضیه ما این است که نوع یادگیری تقویتی مورداستفاده در مدل‌های سری o ممکن است مشکلاتی را تشدید کند که معمولاً با فرآیندهای استاندارد پس از آموزش کاهش می‌یابند، اما به‌طور کامل از بین نمی‌روند.

سارا شوتمان، یکی از بنیان‌گذاران Transluce، اضافه کرد که نرخ توهم بالای o3 ممکن است باعث شود که این مدل کمتر از آنچه که باید مفید باشد.

کیان کاتنفروش، استاد مدعو دانشگاه استنفورد و مدیرعامل شرکت Workera که در زمینه ارتقای مهارت‌ها فعالیت می‌کند، توضیح داد که تیم او در حال آزمایش مدل o3 در فرآیندهای کدنویسی خود بوده و متوجه شده‌اند که این مدل از رقبای خود برتر است. با این حال، کاتنفروش اشاره کرد که o3 تمایل به تولید لینک‌های خراب برای وب‌سایت‌ها دارد. مدل لینک‌هایی ارائه می‌دهد که هنگام کلیک‌کردن، کار نمی‌کنند.

توهم ممکن است به مدل‌ های استدلالی جدید OpenAI کمک کند تا به ایده‌های جالب برسند و در تفکر خلاق باشند، اما این ویژگی باعث می‌شود که برخی مدل‌ها برای کسب‌وکارهایی که دقت اولویت اصلی است، گزینه نامناسبی باشند. برای مثال، یک شرکت حقوقی احتمالاً از مدلی که خطاهای واقعی زیادی در قراردادهای مشتری وارد می‌کند، رضایت نخواهد داشت.

یکی از رویکردهای امیدوارکننده برای افزایش دقت مدل‌ها، ارائه قابلیت‌های جستجوی وب به آن‌هاست. GPT-4o شرکت OpenAI با قابلیت جستجوی وب به دقت 90٪ در معیار SimpleQA، یکی دیگر از معیارهای دقت OpenAI، دست می‌یابد. احتمالاً جستجو می‌تواند نرخ توهم مدل‌های استدلالی را نیز بهبود بخشد؛ حداقل در مواردی که کاربران حاضر باشند درخواست‌های خود را در اختیار یک ارائه‌دهنده جستجوی ثالث قرار دهند.

اگر افزایش مقیاس مدل‌های استدلالی همچنان باعث بدترشدن توهمات شود، یافتن راه‌حل برای این مشکل ضرورت بیشتری پیدا خواهد کرد.

نیکو فلیکس گقت حل مسئله توهم در تمامی مدل‌های ما یک حوزه تحقیقاتی است و ما به‌طور پیوسته درحال تلاش برای بهبود دقت و قابلیت اطمینان آن‌ها هستیم.

در سال گذشته، صنعت هوش مصنوعی به‌طور گسترده‌ای به مدل‌های استدلالی روی آورده است، چرا که تکنیک‌های بهبود مدل‌های سنتی شروع به نشان‌دادن بازده کاهشی کرده‌اند. استدلال باعث بهبود عملکرد مدل‌ها در طیف گسترده‌ای از وظایف می‌شود؛ بدون نیاز به مقادیر عظیمی از محاسبات و داده‌ها در طول آموزش. با این حال، به نظر می‌رسد که استدلال ممکن است باعث افزایش توهم شود که یک چالش جدید را ایجاد می‌کند.

  • استارتاپ هندی سیستمی برای اجرای هوش مصنوعی بدون نیاز به کارت‌های گرافیک پیشرفته معرفی کرد
  • بیل گیتس: هوش مصنوعی به کمبود پزشک و معلم پایان می‌دهد!
  • OpenAI با سرمایه‌گذاری 40 میلیارد دلاری به ارزش 300 میلیارد دلار رسید

برچسب‌ها: هوش مصنوعی

امتیاز: 5.0 از 5 (1 رای)
کمی صبر کنید...
تبلیغات
تبلیغات
سرخط خبرها:
  1. بررسی کیس گیگابایت AORUS C500 GLASS
  2. پدر مجموعه The Elder Scrolls در سن 59 سالگی درگذشت
  3. پردازنده های AMD Ryzen Threadripper PRO 9000 WX Zen 5 به بازار عرضه شدند
  4. افشای مشخصات گوشی ردمی 15 5G: پردازنده قدرتمند و شارژ 2 روزه
  5. جهش چین در توسعه فناوری 6G؛ دانلود فایل 50 گیگابایتی تنها در 1.4 ثانیه!

مطالب مرتبط ...

  • آیا عروسک های باربی به هوش مصنوعی مجهز می‌شوند ؟  0

    آیا عروسک های باربی به هوش مصنوعی مجهز می‌شوند ؟ 

    Avatarتوسط مهرانه راجعی · 24 خرداد 1404 · 24 خرداد 1404

  • 0

    تماشا کنید: رقابت هوش مصنوعی ناسا و انسان در هدایت هواپیمای بدون سرنشین

    Avatarتوسط محمد یوسفی زاده · 7 آذر 1396 · 7 آذر 1396

  • 1

    تشخیص گفتار توسط هوش مصنوعی تا چه حد پیشرفته شده است؟

    Avatarتوسط مهتا مجدی · 27 اسفند 1397 · 27 اسفند 1397

مطالب گوناگون از دینو

کدام داروها می‌توانند تحمل گرما را سخت‌تر کنند؟

10 فیلم فوق‌ العاده که به شما کمک می کند بچه ها را بهتر درک کنید

چگونه از نشخوار افکار منفی و تجربیات گذشته خودداری کنیم؟

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

در صورتی که نظر شما حاوی ناسزا، عبارات توهین‌آمیز و تهدید بوده و در تضاد با قوانین فعلی کشور باشد از انتشار آن بدون حذف موارد ذکر شده، معذوریم.
شکلک‌ها (اموجی‌ها) را می‌توانید با کیبرد گوشی یا کیبرد مجازی ویندوز قرار دهید.
تصاویر نویسندگان دیدگاه از Gravatar گرفته می‌شود.

پربحث‌ترین‌ها

  • تصویب طرح اینترنت طبقاتی 37

    فوری: طرح اینترنت طبقاتی به طور رسمی تصویب شد! (به‌روزرسانی: تکذیبیه سخنگوی دولت)

  • تفاوت گلکسی S25 FE و S24 FE 3

    تفاوت های کلیدی گلکسی S25 FE و S24 FE چیست؟

  • اینترنت طبقاتی؛ دسترسی آزاد برای عده‌ای و محدودیت برای مردم؟ 3

    تماشا کنید: آینده کشور با اجرایی شدن اینترنت طبقاتی چگونه خواهد بود؟

  • 1

    پردازنده‌های گرافیکی AMD RDNA 5 / UDNA حداکثر 96 واحد محاسباتی دارند

آخرین بررسی‌ها

9

بررسی کیس گیگابایت AORUS C500 GLASS

8.5

بررسی کیس آراد گرین - گیمینگ خوش قیمت و خوش ساخت (اعلام برنده)

9.4

بررسی سلطان ایرکولینگ دنیا  ASSASSIN IV VC VISION دیپ کول

8.3

بررسی کیس ای دیتا ایکس پی جی INVADER X MINI WHITE

9.2

بررسی مادربرد گیگابایت Z890 AI TOP

آخرین مطالب دینو

با خوردن میوه و سبزیجات بیشتر، خواب بهتری را تجربه کنید!

ما می‌دانیم که کیفیت خواب روی جنبه‌های مختلفی از…

  • ویژگی‌های بهترین تراول ماگ برای دانشگاه

  • با 7 راه برای کاهش اضطراب در فرودگاه آشنا شوید

  • آیا دستشویی رفتن با کاپ قاعدگی دردسرساز است؟

  • کابوس‌ ها خطر مرگ پیش از 75 سالگی را 3 برابر افزایش می‌دهند

  • مطلب بعدی آهنگ پیشواز همراه اول چگونه فعال میشود (تنظیمات آوای انتظار)
  • مطلب قبلی چطور سرعت پردازنده را در ویندوز و مک چک کنیم؟ (آموزش مرحله به مرحله)
  • آخرین مطالب
  • محبوب‌ترین مطالب
  • بررسی کیس گیگابایت AORUS C500 GLASS

  • درگذشت پدر The Elder Scrolls

    پدر مجموعه The Elder Scrolls در سن 59 سالگی درگذشت

  • پردازنده های AMD Ryzen Threadripper PRO 9000 WX Zen 5 به بازار عرضه شدند

  • افشای مشخصات گوشی ردمی 15 5G: پردازنده قدرتمند و شارژ 2 روزه

  • جهش چین در توسعه فناوری 6G؛ دانلود فایل 50 گیگابایتی تنها در 1.4 ثانیه!

    جهش چین در توسعه فناوری 6G؛ دانلود فایل 50 گیگابایتی تنها در 1.4 ثانیه!

  • تصویب طرح اینترنت طبقاتی 37

    فوری: طرح اینترنت طبقاتی به طور رسمی تصویب شد! (به‌روزرسانی: تکذیبیه سخنگوی دولت)

  • اینترنت طبقاتی؛ دسترسی آزاد برای عده‌ای و محدودیت برای مردم؟ 3

    تماشا کنید: آینده کشور با اجرایی شدن اینترنت طبقاتی چگونه خواهد بود؟

  • تفاوت گلکسی S25 FE و S24 FE 3

    تفاوت های کلیدی گلکسی S25 FE و S24 FE چیست؟

  • هک اکانت Stellar Blade در شبکه X 1

    اکانت Stellar Blade در شبکه اجتماعی ایکس هک شد!

  • 1

    پردازنده‌های گرافیکی AMD RDNA 5 / UDNA حداکثر 96 واحد محاسباتی دارند

آخرین دیدگاه‌ها

  • Avatar
    Mehrshadthz گفته است:
    کی گفته اطلاعات دقیق نیومده تغیرات کلی S25FE فقط ۱ حاشیه...
  • Avatar
    رضا گفته است:
    آب و برق و هوا طبقاتی نفس کشیدن هم طبقاتی میشه...
  • Avatar
    Farzam گفته است:
    درود. لینک ویدئو از ثانیۀ 3 تنظیم شده. ممنون.
  • Avatar
    beloti_69 گفته است:
    این دولت ثباتی با این اوضاع نداره بنظرم ، مثل کسی...
  • Avatar
    مهتا مجدی گفته است:
    سلام. این مقاله براساس احتمالات نوشته شده و هنوز اطلاعات قطعی...
  • Avatar
    محمد حسین گفته است:
    سلام با عرض ادب وان یو آی هفت نیست با وان...
  • Avatar
    رضا گفته است:
    با ... تو فرق سر طراح برنامه
  • Avatar
    reza گفته است:
    اینکه به یه کشور متجاوزی که کلی ادم بی گناه رو...
  • Avatar
    Sas گفته است:
    این .... که ....ن تو ایران
  • Avatar
    مراد گفته است:
    چرا فروشندگان مشهدی اجناس از تهران ارزان تر می دهندبه نظرتون...
راهنمای خرید تبلت 7
تبلت راهنمای خرید و مشاوره هایلایت
راهنمای خرید تبلت بر اساس بودجه‌های مختلف (تابستان 1404)
25 تیر 1404
راهنمای خرید ساعت هوشمند 4
راهنمای خرید و مشاوره هایلایت
راهنمای خرید ساعت هوشمند و مچ بند با بودجه‌های مختلف (تیر 1404)
22 تیر 1404
راهنمای خرید پاور بانک با بودجه‌های مختلف 1
راهنمای خرید و مشاوره
راهنمای خرید پاور بانک با بودجه‌های مختلف (تابستان 1404)
13 تیر 1404
راهنمای خرید ماوس و کیبورد 2
راهنمای خرید و مشاوره
راهنمای خرید موس و کیبورد با بودجه‌های مختلف (تیر 1404)
11 تیر 1404
راهنمای خرید لپ تاپ گیمینگ 469
راهنمای خرید و مشاوره
راهنمای خرید لپ تاپ گیمینگ با بودجه های مختلف (تیر 1404)
10 تیر 1404
راهنمای خرید مانیتور 68
راهنمای خرید و مشاوره
راهنمای خرید مانیتور با بهترین قیمت در بودجه‌های مختلف (تیر 1404)
9 تیر 1404
  • سخت‌افزارمگ
  • درباره ما
  • تبلیغات
  • استخدام
سخت‌افزارمگ

© 2025 Sakhtafzarmag.Com. All Rights Reserved.

صفحه نخست » اخبار و مقالات » مدل‌ های استدلالی جدید OpenAI بیشتر دچار توهم می‌شوند

ورود

عضویت

رمزتان را گم کرده‌اید؟

عضویت | رمزتان را گم کرده‌اید؟
| بازگشت به ورود