همانطور که به GTC 2020 نزدیکتر میشویم، مشخصات چیپ گرافیکی Nvidia Ampere GA100 به نظر میرسد که لو رفته باشد و یک بار دیگر احتمالا شاهد هستیم که معماری گرافیکی نسل بعدی تیم سبز یک هیولای واقعی در بحث قدرت محاسباتی باشد.
جدیدترین مشخصات در فروم چینی Stage1 توسط کاربری منتشر شده که قبلا نیز سابقه افشاگری داشته و حالا شاهد چند نکته کلیدی درباره گرافیک پرچمدار Ampere خواهیم بود. خانواده Nvidia Ampere مدت زمانیست که در خبرها حضور دارند اما انویدیا کاملا در قبال آنها سکوت اختیار کرده. قبلا بارها شاهد بودهایم که این خانواده در افشاگریهای مختلف حاضر بودهاند اما هیچ مدرکی دال بر این که Ampere نام خانواده بعدی گرافیکهای انویدیا برای نسل بعدی دسته HPC / دیتاسنتر خواهد بود، در اختیار نداشتیم.
با توجه به این عضو فروم، پردازنده گرافیکی پرچمدار Ampere مدل GA100 خواهد بود که پیکربندی کامل آن از 128 واحد SM یا 8192 هسته CUDA برخوردار است. مشخص نیست که انویدیا از کدام نود پردازشی استفاده میکند اما در گزارشات قبلی عموما به فناوری 7 نانومتی اشاره شده بود. اجازه دهید مشخصات چیپ گرافیکی Nvidia Ampere GA100 را با دقت بیشتری مرور کنیم.
توان محاسباتی عظیم 36 ترافلاپی
با استفاده لیتوگرافی و معماری گرافیکی جدید، شایعه شده که این چیپ از حداکثر فرکانس بوست 2.2 گیگاهرتز برای هسته بهره مند است. این یک افزایش سرعت کلاک قابل توجه میباشد که اگر صحیح باشد یعنی حداقل 35 درصد سریعتر از چیپ GV100 حاضر در کارت گرافیک Quadro GV100. مدل Quadro GV100 سریعترین کلاک پردازنده GV100 را در اختیار دارد که 1627 مگاهرتز بوده و 16.6 ترافلاپ توان محاسباتی در FP32 را ارائه میدهد.
براساس تعداد هستهها و فرکانس بوست پردازنده GA100 ما میتوانیم شاهد توان محاسباتی عظیم 36 ترافلاپ در FP32 باشیم که به معنای واقعی کلمه دیوانه وار است. این عدد حتی بیشتر از افزایش دو برابری محاسبات FP32 است و اگر این اعداد صحیح باشند ما باید انتظار 18 ترافلاپ قدرت محاسباتی FP64 را داشته باشیم که با فاصله بسیار زیاد از هر گرافیک مدرنی در این زمینه قرار میگیرد.
ادعا شده که این گرافیک از توان حرارتی 300 وات و حافظه HBM2e برخوردار بوده که در دو حجم 24 گیگابایت و 48 گیگابایت قرار میگیرد. این پیکربندیهای حافظه میتواند تنها برای مدل بالا رده باشد زیرا ما نمونههای دیگری با 32 گیگابایت حافظه را نیز مشاهده کردهایم. همچنین شایعاتی وجود دارد که انویدیا تعداد هستههای Tensor را در گرافیکهای جدید Ampere دو برابر خواهد کرد.
چیپ 5120 هستهای فعلی Volta GV100 از 64 هسته Tensor بهره میبرد که بر این اساس چیپ Ampere با 8192 هسته احتمالا از 1024 هسته Tensor برخوردار خواهد بود. اما شایعات ادعا میکنند که انویدیا تعداد هستههای Tensor را دو برابر خواهد کرد و این یعنی ما میتوانیم 2048 هسته Tensor را برای یک چیپ با 8192 هسته CUDA شاهد باشیم. مشخصات چیپ گرافیکی Nvidia Ampere GA100 فوق العاده است اما اجازه دهید در ادامه مشخصات باقی مدلهای لیک شده را نیز به شکل کامل مرور کنیم.
مشخصات و عملکرد گرافیک 1# نسل بعدی انویدیا
اولین گرافیک از تعداد کلی 124 SM که به 7936 هسته CUDA ختم میشود برخوردار است از آنجایی که گرافیکهای حرفهای انویدیا با طراحی 64 هسته CUDA به ازای هر SM عرضه میشوند. این همچنین 55 درصد هسته CUDA بیشتری نسبت به Tesla V100S با 5120 هسته است. گرافیک از حداکثر فرکانس 1.1 گیگاهرتز بهره میبرد که در این فرکانس پایین و غیر نهایی توان محاسباتی 17.5 تا 18 ترافلاپ را در محاسبات FP32 ارائه میدهد.
این مدل از 32 گیگابایت حافظه HBM2e با فرکانس 1200 مگاهرتز و گذرگاه 4096 بیت استفاده میکند. ما به این خاطر نام HBM2e را ذکر کردیم زیرا جدیدترین استاندارد ممکن است و انویدیا نیز همیشه در مدلهای HPC خود از پیشرفتهترین استانداردهای حافظه بهره گرفته است.
به علاوه مشخصات هسته و حافظه این گرافیک از 32 مگابایت حافظه کش سطح دو یعنی 5.33 برابر بیشتر از Volta GV100 با تنها 6 مگابایت حافظه کش سطح دو استفاده میکند. با توجه به این حجم عظیم از حافظه کش ما میتوانیم انتظار افزایش عملکرد بزرگ و تغییرات معماری اساسی را در نسل بعدی گرافیکهای انویدیا داشته باشیم که چند سالیست تحت توسعه هستند.
از نظر کارایی نیز گرافیک توانسته امتیاز 222377 را در بنچمارک OpenCL در Geekbench 5 کسب کند. این پلتفرم با CUDA 8.0 اجرا شده و به احتمال بسیار زیاد گرافیک کاملا برای آن بهینه نبوده است. مشخصات این کارت به واقع فوق العاده میباشد اما اجازه دهید به سراغ دو مدل دیگر برویم.
مشخصات و عملکرد گرافیک 2# نسل بعدی انویدیا
گرافیک دوم از 118 واحد SM یا 7552 هسته CUDA بهره میبرد. این افزایش 47.5 درصدی تعداد هستهها در مقایسه با Tesla V100 با 5120 هسته CUDA را در 80 واحد SM و جمع 24 مگابایت حافظه کش سطح دو نشان میدهد. این گرافکی از حداکثر فرکانس 1.10 گیگاهرتز و 24 گیگابایت حافظه HBM2e با گذرگاه 3072 بیت و فرکانس 1200 مگاهرتز برخوردار بوده است. در این سرعتها این چیپ در تئوری میتواند 16.7 ترافلاپ توان محاسباتی را ارائه دهد اما باز هم باید اشاره کنیم که فرکانس هسته احتمالا بیشتر از این حرفها خواهد بود.
این گرافیک خاص در هر دو بنچمارک OpenCL و CUDA Compute تست شده. در OpenCL امتیاز 184096 بدست آمده در حالی که بنچمارک CUDA امتیاز 169368 را نشان میدهد. هر دو مدل 124 و 118 SM تحت CUDA 8.0 اجرا شدهاند که یعنی گرافیکها احتمالا هنوز کاملا برای بنچمارک Geekbench 5 بهینه نشده است. تفاوت امتیاز بزرگی بین هر دو مدل علی رغم تنها 5 درصد تفاوت در تعداد هسته دیده میشود.
مشخصات و عملکرد گرافیک 3# نسل بعدی انویدیا
در آخر ما گرافیکی با 108 SM یا 6912 هسته CUDA را مشاهده میکنیم که با فرکانس 1.01 گیگاهرتز کُندترین گرافیک بین سه مدل است. این چیپ 35 درصد افزایش تعداد هسته نسبت به Tesla V100 را نشان میدهد و ظاهرا از 46.8 گیگابایت حافظه HBM2e استفاده میکند. این میتواند یک خطا در بنچمارک Geekbench باشد یا این که شاهد 48 گیگابایت حافظه در این مدل هستیم. در بنچمارک CUDA گرافیک مذکور 141654 امتیاز را کسب میکند که یک بار دیگر باید بگوییم امتیاز نهایی نیست زیرا سرعت کلاکها نهایی نیستند.
مقایسه کارت گرافیکهای Nvidia Tesla
نام کارت گرافیک Tesla | Nvidia Tesla M2090 | Nvidia Tesla K40 | Nvidia Tesla K80 | Nvidia Tesla P100 | Nvidia Tesla V100 | Nvidia Tesla #1 | Nvidia Tesla #2 | Nvidia Tesla #3 |
معماری گرافیکی | Fermi | Kepler | Maxwell | Pascal | Volta | Ampere؟ | Ampere؟ | Ampere؟ |
فناوری ساخت | 40 نانومتر | 28 نانومتر | 28 نانومتر | 16 نانومتر | 12 نانومتر | 7 نانومتر؟ | 7 نانومتر؟ | 7 نانومتر؟ |
نام چیپ گرافیکی | GF110 | GK110 | GK210 x 2 | GP100 | GV100 | GA100؟ | GA100؟ | GA100؟ |
ابعاد چیپ (die) | 520 میلیمتر مربع | 561 میلیمتر مربع | 561 میلیمتر مربع | 610 میلیمتر مربع | 815 میلیمتر مربع | نامشخص | نامشخص | نامشخص |
تعداد ترانزیستور | 3.00 میلیارد | 7.08 میلیارد | 7.08 میلیارد | 15 میلیارد | 21.1 میلیارد | نامشخص | نامشخص | نامشخص |
هستههای CUDA | 512 | 2880 | 2496 x 2 | 3840 | 5120 | 6912 | 7552 | 7936 |
فرکانس هسته | تا 650 مگاهرتز | تا 875 مگاهرتز | تا 875 مگاهرتز | تا 1480 مگاهرتز | تا 1455 مگاهرتز | 1.08 گیگاهرتز (اولیه) | 1.11 گیگاهرتز (اولیه) | 1.11 گیگاهرتز (اولیه) |
توان محاسباتی FP32 | 1.33 ترافلاپ | 4.29 ترافلاپ | 8.74 ترافلاپ | 10.6 ترافلاپ | 15.0 ترافلاپ | حدود 15 ترافلاپ (اولیه) | حدود 17 ترافلاپ (اولیه) | حدود 18 ترافلاپ (اولیه) |
توان محاسباتی FP64 | 0.66 ترافلاپ | 1.43 ترافلاپ | 2.91 ترافلاپ | 5.30 ترافلاپ | 7.50 ترافلاپ | نامشخص | نامشخص | نامشخص |
حجم حافظه | 6 گیگابایت | 12 گیگابایت | 12 گیگابایت x 2 | 16 گیگابایت | 16 گیگابایت | 48 گیگابایت | 24 گیگابایت | 32 گیگابایت |
نوع حافظه | GDDR5 | GDDR5 | GDDR5 | HBM2 | HBM2 | HBM2e | HBM2e | HBM2e |
گذرگاه حافظه | 384 بیت | 384 بیت | 384 بیت x 2 | 4096 بیت | 4096 بیت | 4096 بیت؟ | 3072 بیت؟ | 4096 بیت؟ |
فرکانس حافظه | 3.7 گیگاهرتز | 6 گیگاهرتز | 5 گیگاهرتز | 737 مگاهرتز | 878 مگاهرتز | 1200 مگاهرتز | 1200 مگاهرتز | 1200 مگاهرتز |
پهنای باند حافظه | 177.6 گیگابایت بر ثانیه | 288 گیگابایت بر ثانیه | 240 گیگابایت بر ثانیه | 720 گیگابایت بر ثانیه | 900 گیگابایت بر ثانیه | 1.2 ترابایت بر ثانیه؟ | 1.2 ترابایت بر ثانیه؟ | 1.2 ترابایت بر ثانیه؟ |
حداکثر توان حرارتی | 250 وات | 300 وات | 235 وات | 300 وات | 300 وات | نامشخص | نامشخص | نامشخص |
گرافیکهای نسل بعدی AMD CDNA
AMD به تازگی اعلام کرد که گرافیکهای خود را به دو دسته گیمینگ و محاسباتی تقسیم میکند، مشابه آن چه انویدیا از زمان معماری Pascal انجام داده است. خانواده جدید CDNA انتظار میرود که امسال با فناوری 7 نانومتری برای مقابله با لاین آپ HPC انویدیا عرضه شوند. با توجه صحبتهای یکی از اعضای دانشگاه ایندیانا که قرار است ابر کامپیوتر Big Red در آنجا فعالیت کند، نسل بعدی گرافیکهای انویدیا افزایش کارایی عظیم 75 درصدی را در مقایسه با مدلهای Volta به همراه خواهند داشت. گزارشات نسبتا مشابهی نیز در گذشته منتشر شده بودند که به افزایش کارایی 50 درصدی با بهره وری دو برابری اشاره داشتند.
با توجه به این که انویدیا میتواند در نسل بعدی گرافیکهای خود از نظر لیتوگرافی با AMD در یک سطح قرار گیرد و با معماری جدید آنها ما میتوانیم انتظار عملکردی نابودگر را داشته باشیم. بدون شک مشخصات و اعداد بسیار بزرگی در این گزارش (شایعه) وجود دارند و در حالی که ما به شما توصیه میکنیم آنها را حداقل فعلا جدی نگیرید اما بدون شک میتوانیم انتظار رونمایی از نسل بعدی گرافیکها توسط انویدیا را در رویداد آنلاین GTC 2020 در تاریخ 22 مارس (3 فروردین) داشته باشیم.
برای سیستم خانگی نیستن این نمونه ها