شرکت انویدیا نتایج حاصل از تست پلتفرم GB300 NVL72 مبتنی بر معماری Blackwell Ultra خود را در تستهای آموزش هوش مصنوعی MLPerf به نمایش گذاشته و از این طریق قدرت محصول خود را به رخ کشیده است. در این تستها GB300 NVL72 پنج برابر عملکرد بهتری را در مقایسه با پلتفرم مبتنی بر Hopper به نمایش گذاشته است.
عملکرد سیستم GB300 NVL72 انویدیا در تستهای MLPerf
وقتی صحبت از ارائه عملکرد برتر در زمینه هوش مصنوعی میشود، پردازندههای گرافیکی انویدیا همیشه در صدر جدول قرار میگیرند. کارت گرافیکهای دیتاسنتر مبتنی بر معماری Blackwell پیش از این چندین بار پتانسیل باورنکردنی خود را نشان دادهاند و جدیدترین پلتفرم GB300 NVL72 نیز از این قاعده مستثنی نیست.
امروز انویدیا با افتخار اعلام کرد که پردازندههای گرافیکی هوش مصنوعی Blackwell Ultra این شرکت، جایگاه اول را در تمام تستهای آموزش هوش مصنوعی MLPerf کسب کردهاند. این نتایج ثابت میکنند که سیستم GB300 NVL72 کمپانی انویدیا در مقیاس رک، هنوز هم برای حجم کاری فشرده هوش مصنوعی بهترین انتخاب ممکن محسوب میشود.
انویدیا با انتشار یک پست جدید ادعا کرده است آنها تنها شرکتی هستند که نتایج همه آزمونهای MLPerf را به نمایش گذاشتهاند و شکاف عملکرد بین خود و رقبا را افزایش دادهاند. نموداری که به اشتراک گذاشته شده نشان میدهد که پلتفرم GB300 انویدیا تنها در سال 2025 موفق شده است در تستهای آموزش و استنتاج MLPerf صدها پیروزی کسب کند. نتایج حاصل از جدیدترین تستها در ادامه آورده شده است:
- Llama 3.1 405B: 10 min
- Llama 2 70B LoRA: 0.4 min
- Llama 3.1 8B: 5.2 min
- FLUX.1: 12.5 min
- DLRM-dcnv2: 0.71 min
- R-GAT: 1.1 min
- RetinaNet: 1.4 min
نتایج حاصل از بنچمارکها نشان میدهند که انویدیا با استفاده از همان تعداد پردازنده گرافیکی Blackwell Ultra در سیستم رک، به نتایج بسیار بهتری نسبت به سیستم مبتنی بر معماری Hopper دست یافته است. عملکرد پردازندههای گرافیکی GB300 در Llama 3.1 40B pretraining در مقایسه با H100 بیش از 4 برابر و نسبت به Blackwell GB200 تقریبا 2 برابر بهتر بوده است. به طور مشابه، در Llama 2 70B Fine-Tuning، هشت پردازنده گرافیکی GB300 موفق شدند پنج برابر عملکرد بهتری نسبت به H100 ارائه دهند.
پشتیبانی از ظرفیت حافظه 40 ترابایتی در پلتفرم GB300 NVL72
علاوه بر این، کمپانی انویدیا به اکوسیستم CUDA خود که نسبت به رقبایش برتری زیادی دارد، افتخار میکند. پشته نرمافزار CUDA در این زمینه عالی به نظر میرسد، با این حال خود سیستم رک، به علاوه Quantum-X800 InfiniBand با سرعت شبکه 800 گیگابایت بر ثانیه، نیز بینظیر است. باید اشاره کرد که پلتفرم GB300 NVL72 به ازای هر پردازنده گرافیکی 279 گیگابایت حافظه HBM3e دارد. مجموع حافظه گرافیکها و پردازنده مرکزی، ظرفیت باورنکردنی 40 ترابایت را ارائه میدهد. این پیکربندی حافظه عظیم، سرعت بار کاری هوش مصنوعی را افزایش میدهد، البته استفاده از دقت FP4 برای آموزش به منظور ارائه عملکرد عالی، یک نکته بسیار مهم به شمار میرود.
ثبت رکورد آموزش 10 دقیقهای برای پارامتر Llama 405B
انویدیا میگوید که برای آموزش LLM در هر لایه، دقت FP4 را تضمین کرده است تا سرعت محاسبات در مقایسه با FP8 دو برابر شود. Blackwell Ultra این دقت را به 3 برابر افزایش میدهد، به همین دلیل است که انویدیا توانسته رقبا را شکست دهد و بدون افزایش تعداد پردازندههای گرافیکی، عملکرد فوقالعاده بهتری را به نمایش بگذارد. در مقایسه با آزمایش انجام شده در ماه ژوئن، نتایج جدید با استفاده از 5120 پردازنده گرافیکی Blackwell به دست آمد و آموزش پارامتر Llama 3.1 405B تنها 10 دقیقه طول کشید.
مقایسه معماریهای Hopper، Blackwell و Blackwell Ultra در جدول زیر آورده شده است:
ویژگیHopperBlackwellBlackwell Ultraفناوری ساختTSMC 4NTSMC 4NPTSMC 4NPتعداد ترانزیستور80B208B208Bتعداد قالب GPU122عملکرد NVFP4–1020 PetaFLOPSعملکرد FP824 PetaFLOPS5تسریع Attention4.5 TeraExponentials/s5 TeraExponentials/s10.7 TeraExponentials/sحداکثر ظرفیت حافظه HBM80 گیگابایت HBM «H100»؛ 141 گیگابایت HBM3E «H200»192 گیگابایت HBM3E288 گیگابایت HBM3Eحداکثر پهنای باند HBM3.35 ترابایت بر ثانیه «H100»؛ 4.8 TB/s «H200»8 ترابایت بر ثانیه8 ترابایت بر ثانیهپهنای باند NVLink900 گیگابایت بر ثانیه1800 گیگابایت بر ثانیه1800 گیگابایت بر ثانیهحداکثر توان مصرفی «TGP»تا 700 واتتا 1200 واتتا 1400 وات
اولین باشید که نظر می دهید