به نظر میرسد تیم سبز مشغول آماده سازی سریعترین GPU خود تا به امروز است، گرافیک Ampere A100 انویدیا با 80 گیگابایت حافظه HBM2e. در واقع این مدل دو برابر قبل حجم حافظه خواهد داشت و پهنای باند فوق العادهای را فراهم میکند. این موضوع توسط لیست خود انویدیا افشا شده است.
شتاب دهنده فعلی A100 HPC در ژوئن سال گذشته معرفی شد و ظاهرا تیم سبز دوست دارد با به روز رسانی این مدل کار را ادامه دهد. چیپ همچنان بر پایه بزرگترین GPU معماری Ampere یعنی A100 خواهد بود که ابعادی 826 میلی متر مربعی داشته و تعداد دیوانه وار 54 میلیارد ترانزیستور را در خود جای داده است. در واقع انویدیا شتاب دهندههای خود را با این مدل بهبود میبخشد و احتمالا در GTC 2022 شاهد مدلهای نسل بعدی خواهیم بود.
از نظر مشخصات، شتاب دهنده A100 PCIe تغییرات چندانی در بحث پیکربندی هسته نداشته است. چیپ GA100 همچنان توان حرارتی 250 واتی خود برای نمونه 6912 هسته CUDA (یا 108 چند پردازنده جریانی)، 432 هسته Tensor را حفظ نموده اما 80 گیگابایت حافظه HBM2e حالا پهنای باند 2.0 ترابایت بر ثانیه را در مقایسه با 1.55 ترابایت بر ثانیه مدل 40 گیگابایتی ارائه میدهد.
گرافیک Ampere A100 انویدیا با 80 گیگابایت حافظه HBM2e
نمونه A100 SMX همین حالا نیز 80 گیگابایت حافظه را در اختیار دارد اما خبری از چیپهای سریع HBM2e به مانند A100 PCIe نیست. این میزان همچنین بیشترین حجم حافظه استفاده شده در یک کارت گرافیک PCIe است اما نباید انتظار داشت که گرافیکهای رده مصرف کننده در آینده نزدیک به چنین حجمی دسترسی داشته باشند.
عملکرد FP64 این مدل همچنان 9.7 / 19.5 ترافلاپ، عملکرد FP32 بالغ بر 19.5 / 156 / 312 (با Sparsity) ترافلاپ، عملکرد FP16 نیز 312 / 624 (با Sparsity) ترافلاپ و در نهایت INT8 بالغ بر 624 / 1248 (با Sparsity) میباشد. انویدیا در نظر دارد تا شتاب دهنده جدید خود را طی هفته آینده عرضه کند و ما انتظار قیمتی بیش از 20,000 دلار را برای آن داریم زیرا مدل 40 گیگابایتی قیمتی در حدود 15,000 دلار دارد.
کارت گرافیکهای Nvidia Tesla | Tesla K40 PCI-Express | Tesla M40 PCI-Express | Tesla P100 PCI-Express | Tesla P100 SXM2 | Tesla V100 SXM2 | Tesla V100S PCIe | NVIDIA A100 SXM4 | NVIDIA A100 PCIe |
پردازنده گرافیکی | GK110 Kepler | GM200 Maxwell | GP100 Pascal | GP100 Pascal | GV100 Volta | GV100 Volta | GA100 Ampere | GA100 Ampere |
فناوری ساخت | 28 نانومتر | 28 نانومتر | 16 نانومتر | 16 نانومتر | 12 نانومتر | 12 نانومتر | 7 نانومتر | 7 نانومتر |
تعداد ترانزیستور | 7.1 میلیارد | 8 میلیارد | 15.3 میلیارد | 15.3 میلیارد | 21.1 میلیارد | 21.1 میلیارد | 54.2 میلیارد | 54.2 میلیارد |
ابعاد چیپ | 551 میلیمتر مربع | 601 میلیمتر مربع | 610 میلیمتر مربع | 610 میلیمتر مربع | 815 میلیمتر مربع | 815 میلیمتر مربع | 826 میلیمتر مربع | 826 میلیمتر مربع |
تعداد SM | 15 | 24 | 56 | 56 | 80 | 80 | 108 | 108 |
تعداد TPC | 15 | 24 | 28 | 28 | 40 | 40 | 54 | 54 |
تعداد هسته FP32 CUDA به ازای هر SM | 192 | 128 | 64 | 64 | 64 | 64 | 64 | 64 |
تعداد هسته FP64 CUDA به ازای هر SM | 64 | 4 | 32 | 32 | 32 | 32 | 32 | 32 |
تعداد هسته FP32 CUDA | 2880 | 3072 | 3584 | 3584 | 5120 | 5120 | 6912 | 6912 |
تعداد هسته FP64 CUDA | 960 | 96 | 1792 | 1792 | 2560 | 2560 | 3456 | 3456 |
تعداد هسته Tensor | ندارد | ندارد | ندارد | ندارد | 640 | 640 | 432 | 432 |
تعداد واحد بافت | 240 | 192 | 224 | 224 | 320 | 320 | 432 | 432 |
فرکانس پایه | 745 مگاهرتز | 948 مگاهرتز | 1190 مگاهرتز | 1328 مگاهرتز | 1297 مگاهرتز | نامشخص | نامشخص | نامشخص |
فرکانس بوست | 875 مگاهرتز | 1114 مگاهرتز | 1329 مگاهرتز | 1480 مگاهرتز | 1530 مگاهرتز | 1601 مگاهرتز | 1410 مگاهرتز | 1410 مگاهرتز |
عملکرد در هوش مصنوعی و شبکه عصبی عمیق | ندارد | ندارد | ندارد | ندارد | 125 TOPs | 130 TOPs | 1248 TOPs 2496 TOPs با Sparsity | 1248 TOPs 2496 TOPs با Sparsity |
محاسبات FP16 | ندارد | ندارد | 18.7 ترافلاپ | 21.2 ترافلاپ | 30.4 ترافلاپ | 32.8 ترافلاپ | 312 ترافلاپ 624 ترافلاپ با Sparsity | 312 ترافلاپ 624 ترافلاپ با Sparsity |
محاسبات FP32 | 5.04 ترافلاپ | 6.8 ترافلاپ | 10.0 ترافلاپ | 10.6 ترافلاپ | 15.7 ترافلاپ | 16.4 ترافلاپ | 156 ترافلاپ 19.5 ترافلاپ استاندارد | 156 ترافلاپ 19.5 ترافلاپ استاندارد |
محاسبات FP64 | 1.68 ترافلاپ | 0.2 ترافلاپ | 4.7 ترافلاپ | 5.30 ترافلاپ | 7.80 ترافلاپ | 8.2 ترافلاپ | 19.5 ترافلاپ 9.7 ترافلاپ استاندارد | 19.5 ترافلاپ 9.7 ترافلاپ استاندارد |
رابط حافظه | 384 بیت | 384 بیت | 4096 بیت | 4096 بیت | 4096 بیت | 4096 بیت | 6144 بیت | 6144 بیت |
حجم حافظه | 12 گیگابایت GDDR5 288 گیگابایت بر ثانیه | 24 گیگابایت GDDR5 288 گیگابایت بر ثانیه | 16 گیگابایت HBM2 732 گیگابایت بر ثانیه 12 گیگابایت HBM2 549 گیگابایت بر ثانیه | 16 گیگابایت HBM2 732 گیگابایت بر ثانیه | 16 گیگابایت HBM2 900 گیگابایت بر ثانیه | 16 گیگابایت HBM2 1134 گیگابایت بر ثانیه | 40 گیگابایت HBM2 1.6 ترابایت بر ثانیه | 40 گیگابایت HBM2 1.6 ترابایت بر ثانیه 80 گیگابایت HBM2 2.0 ترابایت بر ثانیه |
حجم حافظه کش سطح دو | 1536 کیلوبایت | 3072 کیلوبایت | 4096 کیلوبایت | 4096 کیلوبایت | 6144 کیلوبایت | 6144 کیلوبایت | 40960 کیلوبایت | 40960 کیلوبایت |
توان حرارتی | 235 وات | 250 وات | 250 وات | 300 وات | 300 وات | 250 وات | 400 وات | 250 وات |
الان چینی ها میان باهاش ماین میکنن