شرکت انویدیا نتایج حاصل از تست پلتفرم GB300 NVL72 مبتنی بر معماری Blackwell Ultra خود را در تستهای آموزش هوش مصنوعی MLPerf به نمایش گذاشته و از این طریق قدرت محصول خود را به رخ کشیده است. در این تستها GB300 NVL72 پنج برابر عملکرد بهتری را در مقایسه با پلتفرم مبتنی بر Hopper به نمایش گذاشته است.
عملکرد سیستم GB300 NVL72 انویدیا در تستهای MLPerf
وقتی صحبت از ارائه عملکرد برتر در زمینه هوش مصنوعی میشود، پردازندههای گرافیکی انویدیا همیشه در صدر جدول قرار میگیرند. کارت گرافیکهای دیتاسنتر مبتنی بر معماری Blackwell پیش از این چندین بار پتانسیل باورنکردنی خود را نشان دادهاند و جدیدترین پلتفرم GB300 NVL72 نیز از این قاعده مستثنی نیست.
امروز انویدیا با افتخار اعلام کرد که پردازندههای گرافیکی هوش مصنوعی Blackwell Ultra این شرکت، جایگاه اول را در تمام تستهای آموزش هوش مصنوعی MLPerf کسب کردهاند. این نتایج ثابت میکنند که سیستم GB300 NVL72 کمپانی انویدیا در مقیاس رک، هنوز هم برای حجم کاری فشرده هوش مصنوعی بهترین انتخاب ممکن محسوب میشود.
انویدیا با انتشار یک پست جدید ادعا کرده است آنها تنها شرکتی هستند که نتایج همه آزمونهای MLPerf را به نمایش گذاشتهاند و شکاف عملکرد بین خود و رقبا را افزایش دادهاند. نموداری که به اشتراک گذاشته شده نشان میدهد که پلتفرم GB300 انویدیا تنها در سال 2025 موفق شده است در تستهای آموزش و استنتاج MLPerf صدها پیروزی کسب کند. نتایج حاصل از جدیدترین تستها در ادامه آورده شده است:
- Llama 3.1 405B: 10 min
- Llama 2 70B LoRA: 0.4 min
- Llama 3.1 8B: 5.2 min
- FLUX.1: 12.5 min
- DLRM-dcnv2: 0.71 min
- R-GAT: 1.1 min
- RetinaNet: 1.4 min

نتایج حاصل از بنچمارکها نشان میدهند که انویدیا با استفاده از همان تعداد پردازنده گرافیکی Blackwell Ultra در سیستم رک، به نتایج بسیار بهتری نسبت به سیستم مبتنی بر معماری Hopper دست یافته است. عملکرد پردازندههای گرافیکی GB300 در Llama 3.1 40B pretraining در مقایسه با H100 بیش از 4 برابر و نسبت به Blackwell GB200 تقریبا 2 برابر بهتر بوده است. به طور مشابه، در Llama 2 70B Fine-Tuning، هشت پردازنده گرافیکی GB300 موفق شدند پنج برابر عملکرد بهتری نسبت به H100 ارائه دهند.
پشتیبانی از ظرفیت حافظه 40 ترابایتی در پلتفرم GB300 NVL72
علاوه بر این، کمپانی انویدیا به اکوسیستم CUDA خود که نسبت به رقبایش برتری زیادی دارد، افتخار میکند. پشته نرمافزار CUDA در این زمینه عالی به نظر میرسد، با این حال خود سیستم رک، به علاوه Quantum-X800 InfiniBand با سرعت شبکه 800 گیگابایت بر ثانیه، نیز بینظیر است. باید اشاره کرد که پلتفرم GB300 NVL72 به ازای هر پردازنده گرافیکی 279 گیگابایت حافظه HBM3e دارد. مجموع حافظه گرافیکها و پردازنده مرکزی، ظرفیت باورنکردنی 40 ترابایت را ارائه میدهد. این پیکربندی حافظه عظیم، سرعت بار کاری هوش مصنوعی را افزایش میدهد، البته استفاده از دقت FP4 برای آموزش به منظور ارائه عملکرد عالی، یک نکته بسیار مهم به شمار میرود.

ثبت رکورد آموزش 10 دقیقهای برای پارامتر Llama 405B
انویدیا میگوید که برای آموزش LLM در هر لایه، دقت FP4 را تضمین کرده است تا سرعت محاسبات در مقایسه با FP8 دو برابر شود. Blackwell Ultra این دقت را به 3 برابر افزایش میدهد، به همین دلیل است که انویدیا توانسته رقبا را شکست دهد و بدون افزایش تعداد پردازندههای گرافیکی، عملکرد فوقالعاده بهتری را به نمایش بگذارد. در مقایسه با آزمایش انجام شده در ماه ژوئن، نتایج جدید با استفاده از 5120 پردازنده گرافیکی Blackwell به دست آمد و آموزش پارامتر Llama 3.1 405B تنها 10 دقیقه طول کشید.
مقایسه معماریهای Hopper، Blackwell و Blackwell Ultra در جدول زیر آورده شده است:
| ویژگی | Hopper | Blackwell | Blackwell Ultra |
| فناوری ساخت | TSMC 4N | TSMC 4NP | TSMC 4NP |
| تعداد ترانزیستور | 80B | 208B | 208B |
| تعداد قالب GPU | 1 | 2 | 2 |
| عملکرد NVFP4 | – | 10 | 20 PetaFLOPS |
| عملکرد FP8 | 2 | 4 PetaFLOPS | 5 |
| تسریع Attention | 4.5 TeraExponentials/s | 5 TeraExponentials/s | 10.7 TeraExponentials/s |
| حداکثر ظرفیت حافظه HBM | 80 گیگابایت HBM «H100»؛ 141 گیگابایت HBM3E «H200» | 192 گیگابایت HBM3E | 288 گیگابایت HBM3E |
| حداکثر پهنای باند HBM | 3.35 ترابایت بر ثانیه «H100»؛ 4.8 TB/s «H200» | 8 ترابایت بر ثانیه | 8 ترابایت بر ثانیه |
| پهنای باند NVLink | 900 گیگابایت بر ثانیه | 1800 گیگابایت بر ثانیه | 1800 گیگابایت بر ثانیه |
| حداکثر توان مصرفی «TGP» | تا 700 وات | تا 1200 وات | تا 1400 وات |








دیدگاهتان را بنویسید