NVIDIA GB200「Blackwell」NVL72 伺服器

Back
Category : News

擴展「混合專家」(MoE)AI 模型嘅效能,一直都係業界最大嘅限制之一,但 NVIDIA 好似成功突破咗,歸功於共同設計效能擴展定律。

AI 界一直喺度競賽擴大基礎大型語言模型(LLM),透過增加 token 參數嚟確保模型喺效能同應用上出色,但呢個方法有計算資源投資嘅上限。呢度「混合專家」前沿 AI 模型就派上用場,因為對一個查詢,佢哋唔會激活每 token 嘅全部參數,而係只激活一部分,取決於服務請求類型。雖然 MoE 喺 LLM 入面主導,但擴展佢哋會引入巨大計算瓶頸,NVIDIA 成功克服咗。

公司喺新聞稿入面透露,用 GB200「Blackwell」NVL72 配置,相比 Hopper HGX 200,效能基本上擴大咗 10 倍。公司測試咗佢嘅計算能力喺 Kimi K2 Thinking MoE 模型上,呢個開源 LLM 每前向傳遞有 320 億激活參數,喺佢嘅領域係佼佼者。綠隊聲稱 Blackwell 架構「準備好」利用前沿 MoE 模型嘅興起。

為咗解決擴展 MoE AI 模型涉及嘅效能瓶頸,NVIDIA 採用咗「共同設計」方法,即係利用 GB200 嘅 72 晶片配置,加上 30TB 快速共享記憶體,NVIDIA 將專家並行帶到全新水平,確保 token 批次不斷分割同散佈喺 GPU 上,通訊量以非線性速率增加。其他優化包括:其他全棧優化亦喺解鎖 MoE 模型高推理效能上發揮關鍵作用。NVIDIA Dynamo 框架協調分散式服務,分配預填充同解碼任務到唔同 GPU,讓解碼用大專家並行運行,而預填充用更適合佢工作負荷嘅並行技術。NVFP4 格式有助維持準確度,同時進一步提升效能同效率。

呢個成就對 NVIDIA 同佢嘅合作夥伴嚟講係重大發展,尤其 GB200 NVL72 配置而家喺供應鏈階段,好多前沿模型利用 AI 伺服器提升能力。MoE 模型以計算效率高聞名,所以佢哋喺廣泛環境部署越來越普遍,NVIDIA 好似喺呢個趨勢中心資本化。來源