بر اساس گزارش منتشر شده از سوی TrendForce، ممکن است شرکت انویدیا (Nvidia) مجبور شود تولید انبوه سرورهای نسل بعدی هوش مصنوعی مبتنی بر پلتفرمهای B200 و GB200، یعنی Blackwell را به دلیل مشکلاتی از جمله داغ شدن بیش از حد، مصرف برق و نیاز به بهینهسازی اتصالات، به تعویق بیندازد. این شرکت تحقیقاتی معتقد است که تولید انبوه و تحویل گرافیکهای Blackwell حدودا در اواسط سال 2025 انجام خواهد شد. این مسئله به معنای یک تأخیر تقریبا شش ماهه است. با این حال باید اشاره کرد که کمپانی انویدیا هنوز ادعاهای مطرح شده را تأیید یا رد نکرده است.
به تعویق افتادن تولید انبوه گرافیکهای Blackwell
همانطور که انتظار میرفت، شرکت انویدیا و شرکای آن تنها میتوانند مقادیر محدودی از سرورهای مبتنی بر گرافیکهای Blackwell را در سال 2024 به مشتریان تحویل دهند، زیرا این شرکت مجبور است از چیپهای B200 که بازده پایینی دارند برای ساختن آنها استفاده کند. با این حال، کمپانی دل (Dell) در حال حاضر رکهای سرور مبتنی بر Blackwell را ارسال میکند. باید اشاره کرد که نسخههای اصلاحشده از تراشههای B200 شرکت انویدیا در ماه اکتبر وارد مرحله تولید انبوه شدهاند، با این تفاسیر انتظار میرود این محصولات در ماه ژانویه در دسترس کمپانیها قرار بگیرند، اما TrendForce انتظار ندارد که تولید سرورهای مبتنی بر Blackwell بلافاصله به مرحله تولید انبوه برسد. همانطور که گفته شد، تولید انبوه B200 و GB200 به دلیل داغ شدن بیش از حد، مصرف برق و نیاز به اتصالات با سرعت بالاتر، در بازه زمانی سه ماهه دوم و سوم سال 2025 انجام خواهد شد.
چالش جدید کمپانی انویدیا: مصرف انرژی بسیار بالا
تنها چند ماه پیش، گزارش شده بود که یک رک Nvidia NVL72 مبتنی بر پلتفرم GB200 با 72 تراشه B200، حدود 120 کیلووات برق مصرف میکند. باید گفت که این مقدار از مصرف برق به طور قابل توجهی بیشتر از رکهای سرور AI فعلی است ( به طور معمول، توان رکها با چگالی بالا حداکثر 20 کیلووات خواهد بود، در حالی که گزارش شده است یک رک مبتنی بر تراشه H100 حدود 40 کیلووات برق مصرف میکند). با این وجود، TrendForce ادعا میکند که شرکت انویدیا مشخصات این دستگاه را تغییر داده است که در نتیجه آن این رک اکنون 140 کیلووات برق مصرف میکند. این توان مصرفی بیشتر از آن است که مراکز داده معمولی بتوانند به یک رک واحد ارائه دهند.
دلایل به تعویق افتادن عرضه گرافیکهای Blackwell
مشکل این است که گفته میشود گرافیکهای Blackwell شرکت انویدیا در سرورهای مجهز به 72 تراشه، حتی زمانی که رکها تا 120 کیلووات برق مصرف میکردند، مستعد گرم شدن بیش از حد بودند. این مشکل کمپانی سازنده را مجبور کرده است که به طور مکرر طراحی رکهای سرور خود را بازنگری کند، زیرا گرم شدن بیش از حد نه تنها عملکرد گرافیکها را کاهش میدهد بلکه خطر آسیب به سختافزار را نیز به همراه دارد. مصرف 140 کیلووات برق برای هر رک به معنای نیاز به تغییرات بیشتر در طراحیهای سرور است که میتواند منجر به تأخیر در زمان عرضه شود.
افزایش مصرف برق به معنای نیاز به سیستمهای خنککننده اضافی است. وجود خنککننده مایع برای سرورهای Blackwell ضروری است، با این حال واحدهای توزیع خنککننده (CDU) مدرن تنها میتوانند 60 کیلووات تا 80 کیلووات توان حرارتی را مدیریت کنند. به همین منظور، تأمینکنندگان سیستمهای خنککننده در حال بهینهسازی طراحیهای cold plate و هدفگذاری برای دو برابر یا سه برابر کردن ظرفیت CDUها هستند. کمپانی TrendForce انتظار دارد که عملکرد CDUهای liquid-to-liquid در ردیفها از 1.3 مگاوات فراتر برود، علاوه بر آن پیشرفتهای بیشتری نیز ممکن است، در این صورت تولید گرمای بیش از حد در نهایت دیگر به یک مشکل بزرگ تبدیل نخواهد شد.
انویدیا باید اتصالات خود را بهینهسازی کند
با این حال، بر اساس گزارشات منتشر شده، مصرف برق و مدیریت گرما تنها مشکلاتی نیستند که کمپانی انویدیا و شرکای آن باید حل کنند. TrendForce ادعا میکند که انویدیا باید اتصالات خود را بهینهسازی کند، اما جزئیاتی درباره اینکه کدام اتصالات باید بهینهسازی شوند ارائه نداده است.
گرافیکهای بهروز شده سری B300 Blackwell انرژی بیشتری مصرف میکنند
باید دید که مشکلات ادعا شده در مورد سرورهای B200 و GB200 شرکت انویدیا چگونه بر زمانبندی عرضه و در دسترس قرار گرفتن B200A که بر اساس تراشههای ساده شده بلکول طراحی شده است، همچنین ماشینهای B300 و GB300 که از گرافیکهای بهروز شده Blackwell استفاده میکنند، تأثیر میگذارد. در حالی که انتظار میرود B200A مصرف انرژی بسیار کمتری نسبت به B200/GB200 داشته باشد، گفته شده است گرافیکهای بهروز شده سری B300 Blackwell با حافظه بیشتر و عملکرد محاسباتی بالاتری همراه خواهند بود، که معمولاً به معنای مصرف انرژی بیشتر است. بنابراین، این محصولات احتمالاً بیش از 140 کیلووات در هر رک انرژی مصرف خواهند کرد و به اجزای پیچیدهتر و سیستم خنککننده قویتری نیاز خواهند داشت.
دیدگاهتان را بنویسید