HF 推出 mmBERT:多語言編碼器革命

Back
Category : News

Hugging Face 最近推出咗一個超勁嘅 mmBERT 模型,呢個係基於 ModernBERT 架構嘅多語言編碼器,支援超過 1800 種語言,訓練咗超過 3 萬億 tokens 嘅高質素文本數據,嚟自 DCLM、FineWeb2 同埋其他專門來源,好勁地提升咗性能同埋速度,比起舊款 XLM-R 快咗 2-4 倍。
mmBERT 採用咗三階段訓練策略,先集中高資源語言,之後逐步加入更多語言,特別喺衰減階段學低資源語言,表現出色,例如喺 TiQuaD 同 FoQA 基準上勝過 Google Gemini 2.5 Pro。
呢個模型喺 NLU 同埋檢索任務上大放異彩,喺 XTREME 多語言基準上大幅改善分類同埋問答任務,仲支援 8K 上下文長度,適合生產環境部署。
https://huggingface.co/blog/mmbert