شرکت انویدیا به طور رسمی نسل بعدی معماری گرافیکی Blackwell خود را معرفی کرد که در مقایسه با پردازندههای گرافیکی Hopper H100 حدود 5 برابر عملکرد بیشتری را ارائه میدهد.
همانطور که گفته شد، پردازندههای گرافیکی Blackwell شرکت انویدیا دارای عملکرد هوش مصنوعی 5 برابر سریعتر از گرافیکهای Hopper H100 هستند که در محاسبات هوش مصنوعی نسل بعدی پیشرو محسوب میشوند.
شرکت انویدیا با جزئیات کامل، معماری نسل بعدی هوش مصنوعی و هسته گرافیکی Tensor خود را با کد Blackwell به طور رسمی معرفی کرده است. همانطور که انتظار میرفت، پردازندههای گرافیکی Blackwell اولین تراشههایی هستند که از نخستین طراحی MCM انویدیا بهره میبرند که دو پردازنده گرافیکی را روی یک قالب قرار میدهد.
- قدرتمندترین تراشه جهان – بسته بندی شده با 208 میلیارد ترانزیستور، پردازندههای گرافیکی بلک ول با استفاده از فرآیند سفارشی 4NP TSMC، ساخته شده با قالبهای گرافیکی محدود دو شبکهای تولید میشوند که توسط پیوند تراشه به تراشه 10 ترابایت در ثانیه به یک گرافیک واحد و یکپارچه متصل خواهند شد.
- موتور ترانسفورماتور نسل دوم – با پشتیبانی از مقیاسگذاری میکرو تانسور جدید و الگوریتمهای مدیریت دامنه پویا پیشرفته شرکت انویدیا که در فریمورکهای NVIDIA TensorRT-LLM و NeMo Megatron ادغام شدهاند، همچنین بلکول از اندازههای محاسباتی و مدلهای دو برابری با قابلیتهای جدید استنتاج نقطهای شناور 4 بیتی پشتیبانی میکند.
- NVLink نسل پنجم – برای سرعت بخشیدن به عملکرد مدلهای هوش مصنوعی چند تریلیون پارامتری و ترکیبی (mixture-of-experts)، آخرین نسخه NVIDIA NVLink توان عملیاتی دو جهته 1.8 ترابایت بر ثانیه را به ازای هر گرافیک ارائه میکند و ارتباطات پرسرعت یکپارچه را برای پیچیده ترین LLM ها، بین حداکثر 576 بخش گرافیکی تضمین میکند.
- RAS Engine – پردازندههای گرافیکی پر قدرت Blackwell دارای یک موتور اختصاصی برای قابلیت اطمینان، در دسترس بودن و سرویسدهی هستند. به علاوه، معماری Blackwell قابلیتهایی در سطح تراشه اضافه میکند تا از نگهداری پیشگیرانه مبتنی بر هوش مصنوعی برای انجام تشخیص و پیشبینی مشکلات استفاده کند. این باعث افزایش زمان فعالیت سیستم و بهبود استحکام برای استقرارهای هوش مصنوعی به مقیاس بزرگ میشود تا بتوانند بدون وقفه برای هفتهها یا حتی ماهها ادامه یابند و هزینههای عملیاتی را کاهش دهند.
- هوش مصنوعی امن — قابلیتهای محاسباتی محرمانه پیشرفته، با پشتیبانی از پروتکلهای رمزگذاری رابط بومی جدید، که برای صنایع حساس به حریم خصوصی مانند مراقبتهای بهداشتی و خدمات مالی حیاتی هستند، از مدلهای هوش مصنوعی و دادههای مشتری بدون به خطر انداختن عملکرد محافظت میکند.
- Decompression Engine – یک موتور فشردهسازی اختصاصی از جدیدترین فرمتها پشتیبانی میکند و به درخواستهای پایگاه داده سرعت میبخشد تا بالاترین عملکرد را در تجزیه و تحلیل داده و علم داده ارائه دهد. در سالهای آینده، پردازش دادهها، که شرکتها سالانه دهها میلیارد دلار برای آن هزینه میکنند، به طور فزایندهای از طریق بخش گرافیکی شتاب میگیرد.
در رابطه با جزئیات پردازنده گرافیکی بلکول شرکت انویدیا باید گفت که این تراشه در مجموع دارای 104 میلیارد ترانزیستور در هر قالب محاسباتی است که بر روی گره فرآیند TSMC 4NP ساخته شده است. جالب اینجاست که، هر دو شرکت Synopsys و TSMC از فناوری CuLitho شرکت انویدیا برای تولید پردازندههای گرافیکی Blackwell استفاده کردهاند که سبب تسریع در تولید این تراشههای شتابدهنده هوش مصنوعی نسل بعدی میشود. چیپهای گرافیکی B100 به یک رابط با پهنای باند بالا 10 ترابایت بر ثانیه مجهز هستند که امکان اتصال فوقالعاده سریع یک تراشه به تراشه دیگر را فراهم میکند. این پردازندههای گرافیکی به عنوان یک تراشه یکپارچه در یک بسته قرار داده شدهاند، همچنین تا حداکثر 208 میلیارد ترانزیستور و هماهنگی کامل حافظه کش گرافیکی را ارائه میدهند.
در مقایسه با نسخه هاپر، پردازنده گرافیکی بلکول شرکت انویدیا، حدود 128 میلیارد ترانزیستور بیشتر، 5 برابر عملکرد هوش مصنوعی که به 20 پتا فلاپ در هر تراشه افزایش مییابد، و 4 برابر حافظه داخلی بیشتر ارائه میدهد. خود پردازنده گرافیکی با 8 پشته HBM3e همراه شده است که دارای سریعترین حافظه در جهان است، و پهنای باند حافظه 8 ترابایت بر ثانیه را در یک رابط باس 8192 بیتی و حداکثر 192 گیگابایت حافظه HBM3e را ارائه میدهد.
جمع بندی سریع ارقام عملکرد در مقابل مدل هاپر:
- 20 PFLOPS FP8 (2.5 برابر مدل Hopper)
- 20 PFLOPS FP6 (2.5 برابر مدل Hopper)
- 40 PFLOPS FP4 (5.0 برابر مدل Hopper)
- پارامترهای 740B (6.0 برابر مدل Hopper)
- 34T پارامتر در ثانیه (5.0 برابر مدل Hopper)
- 7.2 ترابایت در ثانیه NVLINK (4.0 برابر مدل Hopper)
شرکت انویدیا پردازندههای گرافیکی بلکول را بهعنوان یک پلتفرم کامل به بازار عرضه میکند، که دو عدد از این چیپهای گرافیکی را که چهار محاسباتی هستند با یک پردازنده Grace (72 هسته پردازنده ARM Neoverse V2) ترکیب میکند. گرافیکها با استفاده از پروتکل 900 گیگابایت بر ثانیه NVLINK به یکدیگر و همچنین به پردازندههای Grace متصل خواهند شد.
معرفی پردازندههای گرافیکی Blackwell B200 شرکت انویدیا برای سال 2024 – 192 گیگابایت HBM3e
اول از همه، ما پردازنده گرافیکی Blackwell B200 را داریم. این اولین نسخه از دو تراشه بلکول است که در طرحهای مختلف از ماژولهای SXM، PCIe AIC و پلتفرمهای Superchip بهره میبرد. پردازنده گرافیکی B200 اولین پردازنده گرافیکی شرکت انویدیا خواهد بود که از طراحی چیپلت استفاده میکند و دارای دو قالب محاسباتی مبتنی بر گره پردازش 4 نانومتری TSMC است.
لازم به ذکر است، فناوری MCM یا Multi-Chip-Module (ماژول چند تراشهای) مدتهاست که در کمپانی انویدیا مطرح میشود و در نهایت به اینجا رسید زیرا این شرکت تلاش میکند با چالشهای مرتبط با گرههای فرآیند نسل بعدی مانند بازده و هزینه مقابله کند. با استفاده از تکنولوژی Chiplets، شرکت انویدیا میتواند عملکرد بهتر نسل به نسل خود را بدون تخریب منابع تامین و هزینهها به دست آورد. این رویکرد فقط یک گام اولیه در سفر تکنولوژی Chiplet این شرکت است و احتمالاً در آینده از آن بیشتر برای بهبود عملکرد و کارایی تراشههای خود استفاده خواهد کرد.
باید بدانید پردازنده گرافیکی Blackwell B200 یک هیولا خواهد بود. این تراشه در مجموع 160 SM برای 20480 هسته را در خود جای داده است. این پردازنده گرافیکی دارای آخرین فناوری اتصال NVLINK است که از همان معماری 8 پردازنده گرافیکی و سوئیچ شبکه 400 گیگابیتی پشتیبانی میکند. همچنین با حداکثر توان 700 وات TDP، بسیار تشنه انرژی خواهد بود، اگرچه در این مورد مشابه تراشههای H100 و H200 است.
جمع بندی این تراشه:
- گره فرآیند TMSC 4NP
- Multi-Chip-Package GPU
- 104 میلیارد ترانزیستور در یک واحد گرافیکی
- 208 میلیارد ترانزیستور در دو واحد گرافیکی
- 160 SMs (20480 هسته)
- 8 بسته HBM
- 192 گیگابایت حافظه HBM3e
- پهنای باند حافظه 8 ترابایت بر ثانیه
- رابط باس حافظه 8192 بیتی
- 8-Hi Stack HBM3e
- پشتیبانی از PCIe 6.0
- حداکثر توان مصرفی 700 وات (پیک)
رابطه با حافظه باید گفت، پردازنده گرافیکی Blackwell B200 تا 192 گیگابایت حافظه HBM3e را در خود جای داده است. این در هشت پشته از ماژولهای 8-hi ارائه میشود که هر کدام دارای ظرفیت 24 گیگابایت VRAM در یک رابط باس گسترده 8192 بیتی هستند. این افزایش 2.4 برابری نسبت به پردازندههای گرافیکی 80 گیگابایتی H100 است که به تراشه اجازه میدهد تا LLMهای بزرگتری را اجرا کند.
در نهایت باید بدانید که گرافیک Blackwell B200 شرکت انویدیا و پلتفرمهای مربوطه آن، عصر جدیدی از محاسبات هوش مصنوعی را هموار میکنند و رقابتی بیرحمانه را به شرکت AMD و آخرین تراشههای کمپانی اینتل تحمیل میکنند که هنوز مورد استقبال گسترده قرار نگرفتهاند. شرکت انویدیا با رونمایی از Blackwell، بار دیگر خود را به عنوان نیروی غالب بازار هوش مصنوعی تثبیت کرد.
تنها ایرادی که میشه گرفت اینه پول ماها بهش نمیرسه 😂🤣
The way it’s meant to be played