شرکت OpenAI روز دوشنبه خانواده جدیدی از مدل های هوش مصنوعی خود به نام GPT-4.1 را معرفی کرد. مدلهای معرفیشده شامل GPT-4.1، GPT-4.1 مینی و GPT-4.1 نانو هستند که به گفته OpenAI در زمینه کدنویسی و پیروی از دستورالعملها «برجسته» عمل میکنند. این مدلهای چندحالته از طریق API شرکت OpenAI دردسترس هستند، اما در ChatGPT قابلاستفاده نیستند.
این مدلها دارای یک پنجره متنی (context window) با ظرفیت 1 میلیون توکن هستند، به این معنی که میتوانند تقریباً 750000 کلمه را به صورت همزمان پردازش کنند (طولانیتر از کتاب «جنگ و صلح»).
مدل هوش مصنوعی GPT-4.1 در حالی عرضه شده که رقبای OpenAI مانند گوگل و آنتروپیک تلاشهای خود را برای توسعه مدلهای پیچیده برنامهنویسی افزایش دادهاند. مدل جمینای 2.5 پرو گوگل که به تازگی با پنجره متنی 1 میلیون توکن عرضه شده، در آزمونهای کدنویسی معتبر عملکرد بالایی نشان داده است. مدل Claude 3.7 Sonnet از شرکت آنتروپیک و نسخه بهروزرسانیشده V3 از استارتاپ چینی دیپسیک نیز در این زمینه مطرح هستند.

هدف بسیاری از غولهای فناوری، از جمله OpenAI، آموزش مدلهایی است که قادر به انجام وظایف پیچیده مهندسی نرمافزار باشند. OpenAI اعلام کرده که مدلهای آینده آن قادر خواهند بود برنامههای کاربردی را از ابتدا تا انتها کدنویسی کرده و جنبههایی مانند تضمین کیفیت، رفع اشکال و نگارش مستندات را مدیریت کنند.
مجموعه مدل GPT-4.1 گامی در مسیری جادویی است
سخنگوی OpenAI در این زمینه گفت: ما مدل هوش مصنوعی GPT-4.1 را براساس بازخورد مستقیم بهبود دادهایم تا در حوزههایی که برای توسعهدهندگان بیشترین اهمیت را دارند، عملکرد بهتری داشته باشد؛ از جمله کدنویسی فرانتاند، کاهش ویرایشهای غیرضروری، رعایت دقیق فرمتها، پایبندی به ساختار و ترتیب پاسخها، استفاده مداوم از ابزارها و موارد دیگر. این بهبودها به توسعهدهندگان اجازه میدهد دستیارهایی بسازند که به طور قابلتوجهی در وظایف مهندسی نرمافزار دنیای واقعی بهتر عمل کنند.
OpenAI مدعی است که مدل کامل GPT-4.1 در آزمونهای کدنویسی، از جمله SWE-bench، بهتر از مدلهای GPT-4o و GPT-4o مینی عمل میکند. مدلهای GPT-4.1 مینی و نانو کارآمدتر و سریعتر هستند، اما دقت کمتری دارند. OpenAI میگوید که مدل GPT-4.1 نانو سریعترین و ارزانترین مدل این شرکت تاکنون است.
هزینه استفاده از GPT-4.1 برای هر یک میلیون توکن ورودی 2 دلار و برای هر یک میلیون توکن خروجی 8 دلار است. مدل GPT-4.1 مینی برای ورودی 0.4 دلار و برای خروجی 1.60 دلار هزینه دارد و مدل GPT-4.1 نانو با هزینه ورودی 0.1 دلار و خروجی 0.4 دلار ارائه میشود.
بر اساس آزمایشهای داخلی OpenAI، مدل GPT-4.1 که میتواند تعداد بیشتری توکن را همزمان تولید کند (32768 در مقابل 16384 توکن در مدل GPT-4o)، در آزمون SWE-bench Verified که بخشی از SWE-bench با تأیید انسانی است، امتیازی بین 52٪ تا 54.6٪ کسب کرده است. (OpenAI در یک پست وبلاگی توضیح داده که برخی از راهحلهای مشکلات SWE-bench Verified روی زیرساخت این شرکت قابل اجرا نبودند، به همین دلیل این امتیاز به صورت بازهای گزارش شده است.) این ارقام کمی پایینتر از امتیاز مدلهای جمینای 2.5 پرو گوگل (63.8٪) و Claude 3.7 Sonnet آنتروپیک (62.3٪) در همین آزمون هستند.
در یک ارزیابی جداگانه، OpenAI مدل GPT-4.1 را با استفاده از Video-MME موردبررسی قرار داد؛ معیاری که توانایی مدل در «درک» محتوای ویدئوها را میسنجد. OpenAI ادعا میکند که GPT-4.1 در دسته ویدئوهای «طولانی، بدون زیرنویس» به دقت 72٪ رسید که بالاترین امتیاز در این دسته است.
در حالی که GPT-4.1 در آزمونهای معیار عملکرد خوبی دارد و دارای «مرز دانش» جدیدتری است که به آن چارچوب بهتری برای وقایع اخیر (تا ژوئن 2024) میدهد، باید توجه داشت که حتی برخی از بهترین مدلهای امروزی نیز با وظایفی مواجه میشوند که برای کارشناسان ساده هستند. به عنوان مثال، بسیاری از مطالعات نشان دادهاند که مدلهای تولیدکننده کد اغلب در رفع مشکلات امنیتی و اشکالات نرمافزاری شکست میخورند و حتی مشکلات جدیدی ایجاد میکنند.
OpenAI نیز اذعان دارد که GPT-4.1 هرچه تعداد توکنهای ورودی بیشتری دریافت کند، اعتبار کمتری دارد (یعنی احتمال اشتباهات بیشتر میشود). در یکی از آزمایشهای خود شرکت، به نام OpenAI-MRCR، دقت مدل از حدود 84٪ با 8000 توکن به 50٪ با 1 میلیون توکن کاهش یافت. همچنین گفته شده که GPT-4.1 نسبت به GPT-4o گرایش بیشتری به «لفظگرایی» داشته و گاهی نیاز به دستورات مشخصتر و واضحتر دارد.
دیدگاهتان را بنویسید