نقص کشنده موجود در طراحی تراشههای هوش مصنوعی بلکول (Blackwell) شرکت انویدیا ماهها پیش برطرف شد و اکنون نسخه اصلاح شده از پردازندههای B100/B200، در آستانه تولید انبوه است. به گزارش رویترز، جنسن هوانگ، مدیر عامل کمپانی انویدیا، این هفته اعتراف کرد که آنها مقصر ایجاد این نقص در طراحی تراشههای Blackwell هستند، به علاوه اضافه کرد که شریک تولید این محصولات، یعنی شرکت TSMC به رفع به موقع نواقص کمک کرده است.
جنسن هوانگ بیان کرد: ما یک نقص طراحی در تراشههای هوش مصنوعی Blackwell داشتیم. با وجود اینکه تراشه کار میکرد، اما نقص طراحی باعث شده بود بازده آن پایین باشد. مقصر بروز این مشکل 100 درصد کمپانی انویدیا بوده است.
هنگامی که اولین خبرها در مورد وجود نقص در طراحی این محصولات منتشر شد، برخی از رسانهها گزارش دادند که شرکت TSMC مقصر آن است، علاوه بر آن پیشبینی کردند که ممکن است این مسئله باعث ایجاد تنش بین کمپانی انویدیا و شریک ریختهگری آنها شود. به گفته جنسن هوانگ اینطور نبود و اشتباه محاسباتی کمپانی انویدیا باعث بروز این مشکل شد. علاوه بر این، جنسن هوانگ گزارشهای مربوط به وجود تنش بین دو شرکت را اخباری جعلی خواند.
نقص طراحی تراشه هوش مصنوعی Blackwell شرکت انویدیا
واحدهای گرافیکی B100 و B200 شرکت انویدیا دو چیپلت خود را با استفاده از فناوری بستهبندی CoWoS-L شرکت TSMC به هم متصل میکنند که بر پایه یک واسط RDL مجهز به پلهای اتصال سیلیکونی محلی (LSI) استوار است (تا نرخ انتقال داده حدود 10 ترابایت در ثانیه را امکانپذیر کند). نحوه قرارگیری این پلها بسیار حیاتی است. با این حال، یک عدم تطابق فرضی در خواص انبساط حرارتی بین چیپلتهای گرافیکی، پلهای LSI، واسط RDL و زیرلایه مادربرد باعث شد که سیستم دچار انحنا و شکست شود. گزارش شده است که کمپانی مجبور شد لایههای فلزی بالایی و برآمدگیهای سیلیکونی چیپ گرافیکی را برای افزایش بازده تولید، اصلاح کند. با وجود اینکه شرکت انویدیا جزئیات خاصی درباره اصلاحات انجام شده فاش نکرده است، اما اشاره کرد که لازم بود از ماسکهای جدید استفاده شود.
چالشهای عملکردی در صنعت نیمههادی: بررسی مشکلات و راهکارها
مشکلاتی که باعث کاهش بازده و مسائل عملکردی عمده (اشکالات) در دنیا تراشههای نیمههادی میشوند، چیز جدیدی نیستند. به طور معمول، شرکتهای سازنده این نواقص را با اصلاح یک لایه فلزی (یا دو) اصلاح میکنند و آن را یک مرحله جدید در پروسه طراحی و ساخت محصول مینامند. به عنوان مثال، گزارش شده است که تراشههای Sapphire Rapids کمپانی اینتل دارای 500 باگ بود و این شرکت حدود دوازده نسخه جدید برای رفع آنها منتشر کرد (که پنج مورد از آنها بازطراحیهای پایه بودند). کامل شدن طراحی هر نسخه جدید حدود سه ماه طول میکشد (که شامل شناسایی مشکل، رفع آن و تولید نسخه جدید چیپ خواهد بود)، بنابراین سرعتی که کمپانیهای انویدیا و TSMC برای رفع نقص ایجاد شده در تراشههای هوش مصنوعی Blackwell داشتند، واقعاً قابل توجه است.
زمان در دسترس قرار گرفتن پردازندههای گرافیکی Blackwell
پردازندههای گرافیکی Blackwell که اکنون اصلاح شدهاند سیستمهای مبتنی بر هوش مصنوعی و سوپرکامپیوترها را هدف قرار میدهند و در اواخر ماه اکتبر وارد مرحله تولید انبوه خواهند شد. با این تفاسیر انتظار میرود این محصولات اوایل سال آینده (که همچنان سال مالی 2025 انویدیا خواهد بود) روانه بازار شوند.
باید اشاره کرد که، شرکت انویدیا در اوایل سال جاری میلادی فاش کرد به منظور پاسخگویی به تقاضا بالا برای پردازندههای گرافیکی بلکول در میان ارائهدهندگان خدمات ابری بزرگ مانند AWS، گوگل و مایکروسافت، همچنان باید برخی از پردازندههای اولیه کمبازده بلکول را در سال 2024 به بازار عرضه کند. در نهایت باید اضافه کرد که هنوز مشخص نیست در سال 2024 چه تعداد از تراشههای هوش مصنوعی Blackwell به مراکز داده ارسال خواهند شد.
اشتباه کرد. باید با همون نقص میداد بیرون. چند ماه میگفت مشکل؟ مشکل نداریم ما، یه سال هم با میکروکد و پچ و اینا ملت رو سر کار میذاشت تا نسل بعدیش برسه بعد میگفت خب حالا بیاید اینو بخرید.
به طرفداراش هم میگفتی میگفتن نه خراب این از سالم اون بهتره. بحترین مهسول غرن هست.