رفتن به نوشته‌ها

پلتفرم GB300 NVL72 انویدیا در تمام تست‌های MLPerf پیروز شد

شرکت انویدیا نتایج حاصل از تست پلتفرم GB300 NVL72 مبتنی بر معماری Blackwell Ultra خود را در تست‌های آموزش هوش مصنوعی MLPerf به نمایش گذاشته و از این طریق قدرت محصول خود را به رخ کشیده است. در این تست‌ها GB300 NVL72 پنج برابر عملکرد بهتری را در مقایسه با پلتفرم مبتنی بر Hopper به نمایش گذاشته است.

عملکرد سیستم GB300 NVL72 انویدیا در تست‌های MLPerf

وقتی صحبت از ارائه عملکرد برتر در زمینه هوش مصنوعی می‌شود، پردازنده‌های گرافیکی انویدیا همیشه در صدر جدول قرار می‌گیرند. کارت گرافیک‌های دیتاسنتر مبتنی بر معماری Blackwell پیش از این چندین بار پتانسیل باورنکردنی خود را نشان داده‌اند و جدیدترین پلتفرم GB300 NVL72 نیز از این قاعده مستثنی نیست.

امروز انویدیا با افتخار اعلام کرد که پردازنده‌های گرافیکی هوش مصنوعی Blackwell Ultra این شرکت، جایگاه اول را در تمام تست‌های آموزش هوش مصنوعی MLPerf کسب کرده‌اند. این نتایج ثابت می‌کنند که سیستم GB300 NVL72 کمپانی انویدیا در مقیاس رک، هنوز هم برای حجم کاری فشرده هوش مصنوعی بهترین انتخاب ممکن محسوب می‌شود.

انویدیا با انتشار یک پست جدید ادعا کرده است آن‌ها تنها شرکتی هستند که نتایج همه آزمون‌های MLPerf را به نمایش گذاشته‌اند و شکاف عملکرد بین خود و رقبا را افزایش داده‌اند. نموداری که به اشتراک گذاشته شده نشان می‌دهد که پلتفرم GB300 انویدیا تنها در سال 2025 موفق شده است در تست‌های آموزش و استنتاج MLPerf صدها پیروزی کسب کند. نتایج حاصل از جدیدترین تست‌ها در ادامه آورده شده است:

  1. Llama 3.1 405B: 10 min
  2. Llama 2 70B LoRA: 0.4 min
  3. Llama 3.1 8B: 5.2 min
  4. FLUX.1: 12.5 min
  5. DLRM-dcnv2: 0.71 min
  6. R-GAT: 1.1 min
  7. RetinaNet: 1.4 min

نتایج حاصل از بنچمارک‌‌ها نشان می‌دهند که انویدیا با استفاده از همان تعداد پردازنده گرافیکی Blackwell Ultra در سیستم رک، به نتایج بسیار بهتری نسبت به سیستم مبتنی بر معماری Hopper دست یافته است. عملکرد پردازنده‌های گرافیکی GB300 در Llama 3.1 40B pretraining در مقایسه با H100 بیش از 4 برابر و نسبت به Blackwell GB200 تقریبا 2 برابر بهتر بوده است. به طور مشابه، در Llama 2 70B Fine-Tuning، هشت پردازنده گرافیکی GB300 موفق شدند پنج برابر عملکرد بهتری نسبت به H100 ارائه دهند.

پشتیبانی از ظرفیت حافظه 40 ترابایتی در پلتفرم GB300 NVL72

علاوه بر این، کمپانی انویدیا به اکوسیستم CUDA خود که نسبت به رقبایش برتری زیادی دارد، افتخار می‌کند. پشته نرم‌افزار CUDA در این زمینه عالی به نظر می‌رسد، با این حال خود سیستم رک، به علاوه Quantum-X800 InfiniBand با سرعت شبکه 800 گیگابایت بر ثانیه، نیز بی‌نظیر است. باید اشاره کرد که پلتفرم GB300 NVL72 به ازای هر پردازنده گرافیکی 279 گیگابایت حافظه HBM3e دارد. مجموع حافظه گرافیک‌ها و پردازنده مرکزی، ظرفیت باورنکردنی 40 ترابایت را ارائه می‌دهد. این پیکربندی حافظه عظیم، سرعت بار کاری هوش مصنوعی را افزایش می‌دهد، البته استفاده از دقت FP4 برای آموزش به منظور ارائه عملکرد عالی، یک نکته بسیار مهم به شمار می‌رود.

ثبت رکورد آموزش 10 دقیقه‌ای برای پارامتر Llama 405B

انویدیا می‌گوید که برای آموزش LLM در هر لایه، دقت FP4 را تضمین کرده است تا سرعت محاسبات در مقایسه با FP8 دو برابر شود. Blackwell Ultra این دقت را به 3 برابر افزایش می‌دهد، به همین دلیل است که انویدیا توانسته رقبا را شکست دهد و بدون افزایش تعداد پردازنده‌های گرافیکی، عملکرد فوق‌العاده بهتری را به نمایش بگذارد. در مقایسه با آزمایش انجام شده در ماه ژوئن، نتایج جدید با استفاده از 5120 پردازنده گرافیکی Blackwell به دست آمد و آموزش پارامتر Llama 3.1 405B تنها 10 دقیقه طول کشید.

مقایسه معماری‌های Hopper، Blackwell و Blackwell Ultra در جدول زیر آورده شده است:

ویژگیHopperBlackwellBlackwell Ultraفناوری ساختTSMC 4NTSMC 4NPTSMC 4NPتعداد ترانزیستور80B208B208Bتعداد قالب GPU122عملکرد NVFP4–1020 PetaFLOPSعملکرد FP824 PetaFLOPS5تسریع Attention4.5 TeraExponentials/s5 TeraExponentials/s10.7 TeraExponentials/sحداکثر ظرفیت حافظه HBM80 گیگابایت HBM «H100»؛ 141 گیگابایت HBM3E «H200»192 گیگابایت HBM3E288 گیگابایت HBM3Eحداکثر پهنای باند HBM3.35 ترابایت بر ثانیه «H100»؛ 4.8 TB/s «H200»8 ترابایت بر ثانیه8 ترابایت بر ثانیهپهنای باند NVLink900 گیگابایت بر ثانیه1800 گیگابایت بر ثانیه1800 گیگابایت بر ثانیهحداکثر توان مصرفی «TGP»تا 700 واتتا 1200 واتتا 1400 وات

منتشر شده در دسته‌بندی نشده

اولین باشید که نظر می دهید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *