انقلاب جدید OpenAI: معرفی مدل‌های استدلالی o3 و o4 مینی

توسط مهرانه راجعی ·27 فروردین 140427 فروردین 1404· 0

OpenAI روز چهارشنبه از عرضه دو مدل استدلالی هوش مصنوعی به نام‌های o3 و o4 مینی خبر داد. این مدل‌ها برای متوقف‌کردن پاسخ‌دهی و بررسی دقیق پرسش‌ها پیش از ارائه پاسخ طراحی شده‌اند.

این شرکت از o3 به‌عنوان پیشرفته‌ترین مدل استدلال خود یاد می‌کند که در آزمون‌هایی برای سنجش توانایی‌های ریاضی، کدنویسی، استدلال، علوم و درک بصری از مدل‌های قبلی این شرکت عملکرد بهتری دارد. در همین حال، o4 مینی تعادلی رقابتی بین قیمت، سرعت و عملکرد ارائه می‌دهد؛ سه عاملی که معمولاً توسعه‌دهندگان هنگام انتخاب یک مدل هوش مصنوعی برای برنامه‌های خود در نظر می‌گیرند.

مشخصات مدل‌های هوش مصنوعی o3 و o4 مینی

برخلاف مدل‌های استدلال قبلی، o3 و o4 مینی قادرند از ابزارهای موجود در ChatGPT مانند مرور وب، اجرای کدهای Python، پردازش تصویر و تولید تصویر برای تولید پاسخ استفاده کنند. از امروز، این مدل‌ها به همراه نسخه‌ای از o4-mini به نام o4-mini-high که زمان بیشتری صرف تدوین پاسخ‌ها می‌کند تا قابلیت اطمینان آن افزایش یابد، برای مشترکان طرح‌های پرو، پلاس و Team OpenAI در دسترس هستند.

این مدل‌های جدید بخشی از تلاش OpenAI برای پیشی‌گرفتن از گوگل، متا، xAI، آنتروپیک و دیپ‌سیک در رقابت جهانی شدید هوش مصنوعی هستند. اگرچه OpenAI اولین شرکتی بود که مدل استدلال هوش مصنوعی (o1) را عرضه کرد، رقبا به‌سرعت نسخه‌های خود را ارائه کردند که در برخی موارد با عملکرد مدل‌های OpenAI برابری یا حتی از آن فراتر رفتند. در واقع، مدل‌های استدلال در حال تسلط بر این حوزه هستند زیرا آزمایشگاه‌های هوش مصنوعی تلاش می‌کنند عملکرد بیشتری از سیستم‌های خود استخراج کنند.

انقلاب جدید OpenAI: معرفی مدل‌های استدلالی o3 و o4 مینی

سم آلتمن، مدیرعامل OpenAI، در ماه فوریه اعلام کرده بود که شرکت قصد دارد منابع بیشتری به یک جایگزین پیشرفته اختصاص دهد که فناوری o3 را در خود دارد. اما به نظر می‌رسد فشار رقابتی در نهایت باعث تغییر تصمیم OpenAI شد.

OpenAI ادعا می‌کند که o3 در آزمون SWE-bench (که توانایی‌های کدنویسی را بدون چارچوب‌های سفارشی می‌سنجد) عملکردی در سطح جهانی ارائه داده و امتیاز ۶۹.۱٪ کسب کرده است. مدل o4 مینی نیز عملکرد مشابهی با امتیاز 68.1٪ نشان داده است. بهترین مدل قبلی، یعنی o3 مینب، در این آزمون امتیاز 49.3٪ و مدل Claude 3.7 Sonnet امتیاز 62.3٪ را به دست آوردند.

OpenAI ادعا می‌کند که o3 و o4 مینی اولین مدل‌های آن هستند که می‌توانند «با تصاویر فکر کنند». در عمل، کاربران می‌توانند تصاویری مانند طراحی‌های روی تخته وایت‌برد یا دیاگرام‌های فایل‌های PDF را به ChatGPT آپلود کنند و مدل‌ها این تصاویر را در مرحله «زنجیره تفکر» خود تحلیل می‌کنند و سپس پاسخ می‌دهند. با این توانایی جدید، o3 و o4-mini می‌توانند تصاویر تار و کم‌کیفیت را درک کنند و وظایفی مانند زوم‌کردن یا چرخاندن تصاویر را هنگام تحلیل انجام دهند.

علاوه بر قابلیت‌های پردازش تصویر، o3 و o4-mini می‌توانند کدهای Python را مستقیماً در مرورگر شما از طریق قابلیت Canvas در ChatGPT اجرا کرده و هنگام پرسش در مورد رویدادهای جاری در وب جستجو کنند.

علاوه بر ChatGPT، هر سه مدل o3، o4 مینی و o4 مینی از طریق نقاط انتهایی مختص توسعه‌دهندگان، یعنی Chat Completions API و Responses API نیز دردسترس خواهند بود. این امکان به مهندسان اجازه می‌دهد تا با استفاده از مدل‌های شرکت، برنامه‌هایی را با نرخ‌های مبتنی بر مصرف بسازند.

OpenAI هزینه نسبتاً پایینی برای مدل o3 دریافت می‌کند. هزینه ورودی این مدل 10 دلار به ازای هر میلیون توکن (تقریباً معادل 750000 کلمه، طولانی‌تر از مجموعه کتاب‌های «ارباب حلقه‌ها») و هزینه خروجی آن 40 دلار به ازای هر میلیون توکن است. برای مدل o4 مینی، OpenAI همان هزینه مدل o3 مینی را دریافت می‌کند: 1.10 دلار به ازای هر میلیون توکن ورودی و 4.40 دلار به ازای هر میلیون توکن خروجی.

OpenAI می‌گوید که در هفته‌های آینده قصد دارد نسخه‌ای به نام o3 پرو را عرضه کند که از منابع محاسباتی بیشتری برای تولید پاسخ‌های خود استفاده می‌کند. این مدل به‌طور انحصاری برای مشترکان طرح پرو در ChatGPT دردسترس خواهد بود.

سم آلتمن، مدیرعامل OpenAI، اشاره کرده است که o3 و o4 مینب ممکن است آخرین مدل‌های استدلال مستقل این شرکت در ChatGPT پیش از GPT-5 باشند. OpenAI گفته است که GPT-5 مدل‌های سنتی مانند GPT-4.1 را با مدل‌های استدلالی ادغام خواهد کرد.

برچسب‌ها: چت بات

بدون امتیاز

کمی صبر کنید...

دیدگاهتان را بنویسید لغو پاسخ

در صورتی که نظر شما حاوی ناسزا، عبارات توهین‌آمیز و تهدید بوده و در تضاد با قوانین فعلی کشور باشد از انتشار آن بدون حذف موارد ذکر شده، معذوریم.
شکلک‌ها (اموجی‌ها) را می‌توانید با کیبرد گوشی یا کیبرد مجازی ویندوز قرار دهید.
تصاویر نویسندگان دیدگاه از Gravatar گرفته می‌شود.