در Hot Chips 34 جزئیات جدید از گرافیک Hopper H100 توسط انویدیا منتشر شده که نشان میدهد نسل چهارم هستههای Tensor تا چه حد پیشرفت کردهاند.
- قیمت تمام کارت گرافیک های انویدیا و AMD بالاخره به MSRP رسید
- سرعت کلاک احتمالی GeForce RTX 4070 – قدرت محاسباتی مشابه RTX 3090 Ti
- توان حرارتی جدید برای RTX 4080 و RTX 4070 – اشاره به مدل مرموز 20 گیگابایتی
در حالی که AMD از راهکار MCM برای گرافیکهای HPC خود استفاده کرده، Nvidia همچنان از طراحی یکپارچه استفاده میکند. Hopper H100 این شرکت یکی از بزرگترین گرافیکهای تولید شده با فناوری ساخت TSMC 4N است که به شک بهینه و اختصاصی برای انویدیا طراحی شده است.
Hopper GH100 یک چیپ عظیم با 144 واحد چند پردازنده جریانیست که در 8 GPC قرار گرفتهاند. هر GPC نیز 9 TPC را در خود جای داده که هر کدام حاوی 2 SM هستند. این یعنی 18 واحد چند پردازنده جریانی به ازای هر GPC و 144 عدد در پیکربندی 8 GPC. هر SM نیز حاوی 128 واحد FP32 است که در کل 18,432 هسته CUDA را ارائه میدهد.
این یعنی 2.25 برابر بیشتر از پیکربندی کامل GA100. البته که انویدیا تعداد هستههای FP64 و FP16 و Tensor بیشتری را در Hopper تعبیه کرده تا عملکرد بیش از پیش افزایش یابد. گفته شده که نسل چهارم هستههای Tensor انویدیا بالغ بر 2 برابر کارایی بیشتری در کلاک یکسان ارائه میدهند.
جزئیات جدید از گرافیک Hopper H100 انویدیا
در تصویر پایین مشاهده میکنید که تعداد واحدهای SM اضافه تنها 20 درصد کارایی بالاتری را فراهم میکنند. اصلیترین بهبود اما از سوی نسل چهارم هستههای Tensor و واحد FP8 فراهم شده در حالی که فرکانس بالاتر نیز 30 درصد عملکرد بهتر را اضافه میکند.
در یک مقایسه جالب، انویدیا میگوید یک واحد GPC گرافیک Hopper H100 برابر با یک گرافیک Kepler GK110 است که پرچمدار HPC شرکت در سال 2012 بود. GK110 در کل از 15 واحد SM استفاده میکرد در حالی که تنها یک GPC گرافیک Hopper بالغ بر 18 واحد SM را در اختیار دارد.
NVIDIA H100 SXM5 | NVIDIA H100 PCIe | A100 PCIe | A100 SXM | Tesla V100s | Tesla V100 | Tesla P100 | |
پردازنده گرافیکی | 4 نانومتری GH100 | 4 نانومتری GH100 | 7 نانومتری GA100 | 7 نانومتری GA100 | 12 نانومتری GV100 | 12 نانومتری GV100 | 16 نانومتری GP100 |
ابعاد die | 814 میلیمتر مربع | 814 میلیمتر مربع | 826 میلیمتر مربع | 826 میلیمتر مربع | 815 میلیمتر مربع | 815 میلیمتر مربع | 610 میلیمتر مربع |
تعداد ترانزیستور | 80 میلیارد | 80 میلیارد | 54 میلیارد | 54 میلیارد | 21.1 میلیارد | 21.1 میلیارد | 15.3 میلیارد |
تعداد SM | 132 | 114 | 108 | 108 | 80 | 80 | 56 |
تعداد هسته CUDA | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3840 |
تعداد هسته Tensor | 528 | 456 | 432 | 432 | 640 | 640 | ندارد |
عملکرد FP16 | 2000 ترافلاپ | 1600 ترافلاپ | 312 ترافلاپ | 312 ترافلاپ | 32.8 ترافلاپ | 31.4 ترافلاپ | 21.2 ترافلاپ |
عملکرد FP32 | 1000 ترافلاپ | 800 ترافلاپ | 156 ترافلاپ | 156 ترافلاپ | 16.4 ترافلاپ | 15.7 ترافلاپ | 10.6 ترافلاپ |
عملکرد FP64 | 60 ترافلاپ | 48 ترافلاپ | 19.5 ترافلاپ | 19.5 ترافلاپ | 8.8 ترافلاپ | 7.8 ترافلاپ | 5.3 ترافلاپ |
فرکانس بوست | نامشخص | نامشخص | 1410 مگاهرتز | 1410 مگاهرتز | 1601 مگاهرتز | 1533 مگاهرتز | 1480 مگاهرتز |
پیکربندی حافظه | 80 گیگابایت HBM3 | 80 گیگابایت HBM2e | 40 گیگابایت HBM2e | 40 گیگابایت HBM2e | 32 گیگابایت HBM2e | 16 / 32 گیگابایت HBM2e | 16 گیگابایت HBM2e |
گذرگاه حافظه | 5120 بیت | 5120 بیت | 5120 بیت | 5120 بیت | 4096 بیت | 4096 بیت | 4096 بیت |
توان حرارتی | 700 وات | 350 وات | 250 وات | 400 وات | 250 وات | 300 وات | 300 وات |
فرم فاکتور | SXM5 | PCI Express 5.0 | PCI Express 4.0 | SXM4 | PCI Express 3.0 | SXM2 / PCI Express 3.0 | SXM |
دیدگاهتان را بنویسید