شرکت چینی دیپ سیک (DeepSeek) بدون استفاده از روشهای پیچیدهتر یا سرمایهگذاریهای عظیم، به موفقیتی دست یافت که باعث شد از رقیب قدرتمندش OpenAI پیشی بگیرد. این شرکت، طی آخر هفتهای خبرساز، توانست ChatGPT را کنار زده و به محبوبترین اپلیکیشن دانلودشده در فروشگاه اپل تبدیل شود. موفقیت تجاری آن، پس از انتشار چندین مقاله علمی به دست آمد که نشان میداد مدلهای جدید R1 این شرکت—که با هزینه کمتری ساخته و استفاده میشوند—عملکردی مشابه مدلهای پیشرفته OpenAI داشته و حتی در برخی موارد از آنها بهتر عمل میکنند.
اما دیپ سیک دقیقاً چه کاری انجام داد که OpenAI نتوانست؟
پاسخ قطعی دشوار است، زیرا OpenAI اطلاعات زیادی درباره نحوه آموزش مدل GPT-4 خود منتشر نکرده است. با این حال، تفاوتهای آشکاری در رویکرد دیپ سیک و OpenAI دیده میشود و این شرکت توانسته در برخی زمینهها پیشرفتهای چشمگیری ارائه دهد.
تفاوت کلیدی دیپ سیک در مقابل OpenAI: کارآمدی در مقابل هزینهگرایی
بزرگترین تفاوت، که حتی باعث افت سهام شرکتهای سازنده تراشه مانند انویدیا در روز دوشنبه شد، این است که DeepSeek مدلهایی رقابتی تولید میکند که بهمراتب کارآمدتر از مدلهای رقبای بزرگش هستند. جدیدترین مدلهای این شرکت، R1 و R1-Zero، بر پایه مدل پایهای V3 ساخته شدهاند.
شرکت اعلام کرده که آموزش این مدل تنها کمتر از 6 میلیون دلار هزینه داشته است، آنهم با استفاده از سختافزارهای قدیمی انویدیا که همچنان برای شرکتهای چینی قابل خریداری هستند (برخلاف تراشههای پیشرفته این شرکت). در مقابل، سم آلتمن، مدیرعامل OpenAI، اعلام کرده که آموزش مدل GPT-4 بیش از 100 میلیون دلار هزینه داشته است.
کارل فروند، بنیانگذار شرکت تحقیقاتی Cambrian AI Research، اعلام کرد که سیاستهای آمریکا، مانند ممنوعیت فروش تراشههای پیشرفته به چین، شرکتهایی مانند DeepSeek را مجبور کرده تا به جای استفاده از سختافزار بهتر و مراکز داده عظیم، به بهینهسازی معماری مدلها روی آورند. او میگوید: شما میتوانید یک مدل را سریع بسازید یا اینکه سخت تلاش کنید تا آن را بهینه بسازید. تأثیر این امر بر شرکتهای غربی این است که مجبور میشوند کار سختی را که تاکنون از انجام آن طفره رفتهاند، انجام دهند.
نوآوری یا بهینهسازی؟
DeepSeek بیشتر تکنیکهایی که استفاده کرده را اختراع نکرده است. برخی از این روشها، مانند استفاده از فرمتهای دادهای کمحجمتر برای کاهش مصرف حافظه، قبلاً توسط رقبا معرفی شده بودند. با این حال، از بررسی مقالات دیپ سیک مشخص میشود که تیم آنها تمامی ابزارهای موجود را گرد هم آوردهاند تا نیاز به حافظه پردازشی را به حداقل برسانند و معماری مدل خود را برای سختافزارهای قدیمی بهینه کنند.
OpenAI اولین شرکتی بود که مدلهای به اصطلاح «استدلالی» را معرفی کرد. این مدلها از تکنیکی به نام زنجیره تفکر استفاده میکنند که به تقلید از روش آزمون و خطای انسان، مسائل پیچیدهای مانند مسائل ریاضی و کدنویسی را حل میکند. با این حال، OpenAI هرگز توضیح نداده که چگونه این قابلیت را توسعه داده است. از طرف دیگر، DeepSeek روش خود را بهطور شفاف بیان کرده است.
حذف بازخورد انسانی: نوآوری DeepSeek در یادگیری
در گذشته، پیشرفت مدلهای مولد هوش مصنوعی معمولاً از طریق یک روش به نام یادگیری تقویتی با بازخورد انسانی (RLHF) حاصل میشد. در این روش، انسانها پاسخهای خوب و بد مدل را برچسبگذاری کرده و مدل تشویق میشود تا ویژگیهای مثبت، مانند دقت و انسجام، را تقلید کند.
نوآوری بزرگ DeepSeek در توسعه مدلهای R1 این بود که کاملاً بازخورد انسانی را حذف کرد و الگوریتمهای خود را طوری طراحی کرد که بتوانند اشتباهات خود را تشخیص داده و اصلاح کنند. محققان DeepSeek نوشتهاند: مدل R1-Zero قابلیتهایی مانند خودبازبینی، تأمل، و تولید زنجیرههای بلند تفکر را نشان داده است.
این مدل نقطه عطف مهمی برای جامعه تحقیقاتی محسوب میشود. قابلتوجه است که این اولین پژوهش عمومی است که ثابت میکند قابلیتهای استدلالی مدلهای زبانی بزرگ میتواند تنها از طریق یادگیری تقویتی خالص تقویت شود.
اصلاحات برای رسیدن به مدل نهایی
هرچند روش یادگیری تقویتی خالص نوآورانه بود، نتایج کاملی نداشت. خروجیهای مدل R1-Zero گاهی ناخوانا و غیرشفاف بودند و حتی بین زبانهای مختلف تغییر میکردند. برای رفع این مشکلات، DeepSeek یک پایپلاین آموزشی جدید طراحی کرد که شامل مقدار کمی داده برچسبگذاریشده برای هدایت مدل در مسیر درست بود. این دادههای برچسبگذاریشده با چندین دور یادگیری تقویتی ترکیب شدند تا مدلی تولید شود که نتایج بهتری ارائه دهد. مدل نهایی، یعنی R1، توانست در مجموعهای از مسائل ریاضی و برنامهنویسی که برای انسان طراحی شده بودند، عملکرد بهتری نسبت به مدلهای برتر OpenAI ارائه دهد.
پیامدهای موفقیت دیپ سیک برای صنعت هوش مصنوعی
بیل هاناس و هیوی-می چانگ، کارشناسان فناوری و سیاست چین در مرکز امنیت و فناوریهای نوظهور دانشگاه جورجتاون، معتقدند چین بهطور دقیق پیشرفتها و شیوههای شرکتهای غربی را رصد میکند. این نظارت به شرکتهای چینی کمک کرده تا راهحلهایی برای دورزدن محدودیتهای ایالات متحده، مانند تحریم تراشهها، پیدا کنند.
به گفته این کارشناسان، موفقیت DeepSeek نهتنها تهدیدی برای شرکتهای داخلی نیست، بلکه هشداری جدی برای شرکتهای آمریکایی محسوب میشود که به راهحلهای عظیم و پرهزینه متکی هستند. DeepSeek نشان داده که میتوان با رویکرد «انجام بیشتر با هزینه کمتر» به موفقیت رسید. این رویکرد اکنون اساس کار بسیاری از آزمایشگاههای دولتی چین قرار گرفته است.
دیدگاهتان را بنویسید