OpenAI ادعا میکند که مدل جدید آن به سطح انسان در یک آزمون برای «هوش عمومی» رسیده است. این به چه معناست؟ سیستم o3 شرکت OpenAI در آزمون معیار ARC-AGI امتیاز 85 درصد کسب کرد که به طور قابلتوجهی بالاتر از بهترین امتیاز قبلی AI (55 درصد) و در حد میانگین نمره انسانی است.
مدل جدید هوش مصنوعی OpenAI به تازگی در آزمونی که برای سنجش «هوش عمومی» طراحی شده، نتایجی همسطح انسان کسب کرده است.
به تازگی سیستم o3 شرکت OpenAI در آزمون معیار ARC-AGI امتیاز 85 درصد کسب کرد. این امتیاز به طور قابل توجهی بالاتر از بهترین نمره قبلی مدل هوش مصنوعی OpenAI (55 درصد) بود و در حد میانگین امتیاز انسان قرار داشت. این مدل همچنین در یک آزمون ریاضی بسیار دشوار نیز عملکرد خوبی داشت.
ایجاد هوش مصنوعی عمومی (AGI) هدف اعلامشده تمام آزمایشگاههای بزرگ تحقیقاتی در حوزه هوش مصنوعی است. در نگاه اول، به نظر میرسد OpenAI حداقل گامی قابل توجه به سوی این هدف برداشته است.
اگرچه شک و تردیدهایی همچنان وجود دارد، بسیاری از پژوهشگران و توسعهدهندگان هوش مصنوعی احساس میکنند تغییری اساسی رخ داده است. برای بسیاری، امکان دستیابی به AGI اکنون واقعیتر، ضروریتر و نزدیکتر از آنچه پیشبینی میشد به نظر میرسد. آیا این دیدگاه درست است؟
تعمیم و هوش
برای درک معنای نتیجه o3، باید بفهمید که آزمون ARC-AGI درباره چیست. از نظر فنی، این آزمون توانایی سیستم هوش مصنوعی را در «کارایی نمونه» برای سازگاری با موقعیتهای جدید میسنجد – یعنی این که سیستم برای درک نحوه کار یک موقعیت جدید، به چند نمونه نیاز دارد.
یک سیستم هوش مصنوعی مانند ChatGPT (GPT-4) از نظر کارایی نمونه چندان قوی نیست. این سیستم با میلیونها نمونه متن انسانی «آموزش دیده» و قوانین احتمالاتی را درباره ترکیبهای کلمات محتمل ساخته است.
نتیجه این است که در وظایف رایج عملکرد خوبی دارد، اما در وظایف غیرمعمول ضعیف است. زیرا دادههای کمتری (نمونههای محدودتری) درباره این وظایف دارد.
تا زمانی که سیستمهای هوش مصنوعی نتوانند از تعداد کمی نمونه یاد بگیرند و با کارایی نمونه بالاتری سازگار شوند، تنها برای مشاغل بسیار تکراری و مواردی که خطاهای گاهبهگاه قابل تحمل هستند، مفید خواهند بود.
توانایی حل دقیق مسائل ناشناخته یا جدید از دادههای محدود، بهعنوان ظرفیت تعمیمدهی شناخته میشود. این ظرفیت بهطور گسترده به عنوان یکی از عناصر اساسی و حتی ضروری هوش در نظر گرفته میشود.
شبکهها و الگوها
معیار ARC-AGI توانایی سازگاری کارآمد با نمونههای محدود را با استفاده از مسائل مربوط به شبکههای مربعی کوچک، مانند تصویر زیر، آزمایش میکند. هوش مصنوعی باید الگویی را که شبکه سمت چپ را به شبکه سمت راست تبدیل میکند، شناسایی کند.
هر سوال سه نمونه برای یادگیری ارائه میدهد. سیستم هوش مصنوعی سپس باید قوانینی را شناسایی کند که از این سه نمونه به سوال چهارم تعمیم پیدا کنند.
این سوالات شباهت زیادی به آزمونهای IQ دارند که ممکن است از مدرسه به یاد داشته باشید.
قوانین ضعیف و سازگاری
ما دقیقاً نمیدانیم OpenAI چگونه این کار را انجام داده است، اما نتایج نشان میدهند مدل o3 بسیار سازگار است. این مدل از چند نمونه به قوانین قابل تعمیم دست پیدا میکند.
برای شناسایی یک الگو، نباید فرضیات غیرضروری مطرح کنیم یا بیش از حد خاص شویم. از نظر تئوری، اگر بتوانید «ضعیفترین» قوانینی را که کار شما را انجام میدهند شناسایی کنید، توانایی خود برای سازگاری با موقعیتهای جدید را به حداکثر رساندهاید.
ضعیفترین قوانین به چه معنا هستند؟ تعریف فنی آن پیچیده است، اما قوانین ضعیف معمولاً قوانینی هستند که میتوان آنها را به صورت جملات سادهتر توصیف کرد.
در مثال بالا، یک توصیف ساده از قانون ممکن است به این شکل باشد: هر شکلی که خطی برجسته دارد به انتهای آن خط حرکت میکند و هر شکلی که با آن همپوشانی دارد را میپوشاند.
جستجوی زنجیرههای فکری؟
اگرچه هنوز نمیدانیم OpenAI چگونه این نتیجه را به دست آورده است، بعید است آنها عمداً سیستم o3 را برای یافتن قوانین ضعیف بهینه کرده باشند. با این حال، برای موفقیت در وظایف ARC-AGI، این سیستم باید چنین قوانینی را شناسایی کند.
ما میدانیم که OpenAI از یک نسخه عمومی از مدل o3 (که با سایر مدلها متفاوت است، زیرا میتواند زمان بیشتری را برای «فکرکردن» درباره سوالات دشوار صرف کند) شروع کرده و سپس آن را به طور خاص برای آزمون ARC-AGI آموزش داده است.
فرانسوا شولِت، پژوهشگر هوش مصنوعی فرانسوی که این معیار را طراحی کرده است، معتقد است o3 زنجیرههای مختلفی از «افکار» را که مراحل حل مسئله را توصیف میکنند، جستجو میکند و سپس بهترین زنجیره را بر اساس یک قانون کلی یا «هوریستیک» انتخاب میکند.
این روش شباهتهایی با نحوه عملکرد سیستم AlphaGo گوگل دارد که برای شکستدادن قهرمان جهان در بازی Go، دنبالههای مختلفی از حرکات را جستجو میکرد.
میتوانید این زنجیرههای فکری را مانند برنامههایی در نظر بگیرید که با مثالها هماهنگ هستند. البته، اگر این سیستم مانند هوش مصنوعی بازی Go باشد، به یک قانون کلی (هوریستیک) نیاز دارد تا تصمیم بگیرد کدام برنامه بهترین است.ممکن است هزاران برنامه مختلف که به ظاهر به یک اندازه معتبر هستند تولید شود. این هوریستیک میتواند «ضعیفترین را انتخاب کن» یا «سادهترین را انتخاب کن» باشد.
با این حال، اگر این سیستم شبیه AlphaGo باشد، احتمالاً یک هوش مصنوعی برای ایجاد این هوریستیک به کار گرفته شده است. این فرآیندی بود که برای AlphaGo نیز استفاده شد. گوگل مدلی را آموزش داد تا دنبالههای مختلف حرکات را به عنوان بهتر یا بدتر ارزیابی کند.
آنچه هنوز نمیدانیم
سوال این است: آیا این واقعاً به AGI نزدیکتر است؟ اگر این نحوه کار o3 باشد، مدل پایه ممکن است چندان بهتر از مدلهای قبلی نباشد.
مفاهیمی که این مدل از زبان یاد میگیرد ممکن است برای تعمیم بهتر از قبل مناسب نباشند. بلکه ممکن است ما فقط شاهد یک زنجیره فکری کلیتر باشیم که از طریق مراحل اضافی آموزش هوریستیک تخصصی برای این آزمون به دست آمده است. نتیجه واقعی همیشه در عمل مشخص میشود.
تقریباً همه چیز درباره o3 همچنان ناشناخته است. OpenAI اطلاعات خود را به چند ارائه رسانهای و آزمایشهای اولیه محدود کرده و فقط تعداد کمی از پژوهشگران، آزمایشگاهها و نهادهای ایمنی هوش مصنوعی به آن دسترسی داشتهاند.
برای درک واقعی پتانسیل o3 نیاز به کار گستردهای شامل ارزیابیهای دقیق، شناخت توزیع قابلیتهای آن، بررسی میزان شکستها و موفقیتهایش است.
وقتی مدل هوش مصنوعی جدید OpenAI سرانجام منتشر شود، درک بهتری خواهیم داشت که آیا این سیستم تقریباً به اندازه یک انسان متوسط سازگار است یا خیر.
اگر چنین باشد، میتواند تاثیر اقتصادی عظیم و انقلابی داشته باشد و عصری جدید از هوش شتابدهنده خود-بهبودپذیر را آغاز کند. ما نیاز به معیارهای جدید برای AGI و بررسیهای جدی در مورد نحوه حکمرانی بر آن خواهیم داشت.
اگر چنین نباشد، این نتیجه همچنان چشمگیر خواهد بود. با این حال، زندگی روزمره همچنان به همان شکل باقی خواهد ماند.
دیدگاهتان را بنویسید