HF 推出 mmBERT：多語言編碼器革命

Back

Category : News

Hugging Face 最近推出咗一個超勁嘅 mmBERT 模型，呢個係基於 ModernBERT 架構嘅多語言編碼器，支援超過 1800 種語言，訓練咗超過 3 萬億 tokens 嘅高質素文本數據，嚟自 DCLM、FineWeb2 同埋其他專門來源，好勁地提升咗性能同埋速度，比起舊款 XLM-R 快咗 2-4 倍。
mmBERT 採用咗三階段訓練策略，先集中高資源語言，之後逐步加入更多語言，特別喺衰減階段學低資源語言，表現出色，例如喺 TiQuaD 同 FoQA 基準上勝過 Google Gemini 2.5 Pro。
呢個模型喺 NLU 同埋檢索任務上大放異彩，喺 XTREME 多語言基準上大幅改善分類同埋問答任務，仲支援 8K 上下文長度，適合生產環境部署。
https://huggingface.co/blog/mmbert

Post Views: 469