即時大型語言模型 (LLM) 推論
GB200 引入了最先進的技術和第二代 Transformer 引擎,支援 FP4 AI,結合第五代 NVLink 後,可以將上兆參數語言模型的即時推論效能加快 30 倍。新一代 Tensor Core 是達成此項進步的關鍵,它導入了新的微擴充格式,提供高準確度和更高的傳輸量。此外,GB200 NVL72 使用 NVLink 和液體冷卻來打造單一大型 72-GPU 機架來克服通訊瓶頸。
大規模訓練
GB200 配備第二代 Transformer 引擎,具備 FP8 精度,可以將大型語言模型的大規模訓練加快 4 倍。這一突破結合了第五代 NVLink,提供每秒 1.8 TB 的 GPU 至 GPU 互連、InfiniBand 網路和 NVIDIA Magnum IO™ 軟體支援。
節能基礎架構
GB200 液冷機架可以減少資料中心的碳足跡和能源消耗,並提高運算密度、節省空間,並在大型 NVLink 網域架構中實現高頻寬、低延遲 GPU 通訊。相較於 NVIDIA H100 氣冷式基礎架構,GB200 同等功耗下效能增長 25 倍,同時可以減少用水量。
資料處理
資料庫在處理和分析企業的大量資料方面扮演關鍵角色。GB200 利用 NVIDIA Blackwell 架構中具有高頻寬記憶體效能的 NVLink-C2C 和專用解壓縮引擎,將關鍵資料庫查詢的速度提升為 CPU 的 18 倍,總擁有成本降低 5 倍。
| DGX SuperPOD with DGX GB200 | |
| GPUs | 72 Blackwell GPUs |
| GPU Memory | 13.5 TB |
| NVLink (GPU to GPU bandwidth) | 130 TB/s |
|
Performance |
FP4 Tensor Core:1,440 PFLOPSFP8/FP6 Tensor Core: 720 PFLOPS |
| NVIDIA CUDA® Cores | N/A |
| NVIDIA Tensor Cores | N/A |
| Maximum Power Usage | N/A |
| CPU | 36xArm Neoverse V2 cores |
| System Memory | 17 TB LPDDR5X |
| Network | N/A |
| Storage | N/A |