NVIDIA GB200「Blackwell」NVL72 伺服器

擴展「混合專家」（MoE）AI 模型嘅效能，一直都係業界最大嘅限制之一，但 NVIDIA 好似成功突破咗，歸功於共同設計效能擴展定律。

AI 界一直喺度競賽擴大基礎大型語言模型（LLM），透過增加 token 參數嚟確保模型喺效能同應用上出色，但呢個方法有計算資源投資嘅上限。呢度「混合專家」前沿 AI 模型就派上用場，因為對一個查詢，佢哋唔會激活每 token 嘅全部參數，而係只激活一部分，取決於服務請求類型。雖然 MoE 喺 LLM 入面主導，但擴展佢哋會引入巨大計算瓶頸，NVIDIA 成功克服咗。

公司喺新聞稿入面透露，用 GB200「Blackwell」NVL72 配置，相比 Hopper HGX 200，效能基本上擴大咗 10 倍。公司測試咗佢嘅計算能力喺 Kimi K2 Thinking MoE 模型上，呢個開源 LLM 每前向傳遞有 320 億激活參數，喺佢嘅領域係佼佼者。綠隊聲稱 Blackwell 架構「準備好」利用前沿 MoE 模型嘅興起。

為咗解決擴展 MoE AI 模型涉及嘅效能瓶頸，NVIDIA 採用咗「共同設計」方法，即係利用 GB200 嘅 72 晶片配置，加上 30TB 快速共享記憶體，NVIDIA 將專家並行帶到全新水平，確保 token 批次不斷分割同散佈喺 GPU 上，通訊量以非線性速率增加。其他優化包括：其他全棧優化亦喺解鎖 MoE 模型高推理效能上發揮關鍵作用。NVIDIA Dynamo 框架協調分散式服務，分配預填充同解碼任務到唔同 GPU，讓解碼用大專家並行運行，而預填充用更適合佢工作負荷嘅並行技術。NVFP4 格式有助維持準確度，同時進一步提升效能同效率。

呢個成就對 NVIDIA 同佢嘅合作夥伴嚟講係重大發展，尤其 GB200 NVL72 配置而家喺供應鏈階段，好多前沿模型利用 AI 伺服器提升能力。MoE 模型以計算效率高聞名，所以佢哋喺廣泛環境部署越來越普遍，NVIDIA 好似喺呢個趨勢中心資本化。來源

Post Views: 1,091