百度 PP-OCRv5 在 Hugging Face 發布

Back
Category : News

百度喺 Hugging Face 推出咗 PP-OCRv5,呢個新嘅光學字符辨識 (OCR) 模型,專門設計嚟喺專門文字辨識任務上打敗大型視覺語言模型 (VLM)。唔同於 Gemini 2.5 Pro、Qwen2.5-VL 或 GPT-4o 呢啲通用架構,將 OCR 當作多模態工作流程一部分,PP-OCRv5 係專為準確度、效率同速度而建。
呢個模型針對 OCR 領域一個日益嚴重嘅問題。雖然 VLM 可以讀文字,但佢哋經常喺精準定位同邊界框準確度上掙扎,尤其喺高密度或低質素文件。佢哋仲會產生幻覺,生成合理但唔存在嘅內容。PP-OCRv5 避開呢啲陷阱,用一個模組化兩階段管道,專為結構化文字提取、內容分析同多語言文件辨識而設計。
PP-OCRv5 好細部,只有 0.07 億參數,即使喺 CPU 同資源受限裝置上都容易部署。喺 Intel Xeon Gold 6271C CPU 上,移動版可以每秒處理超過 370 個字符,適合大規模或邊緣部署。
雖然細,但模型達到最先進性能。喺 OmniDocBench 基準測試,涵蓋手寫同印刷中英文字,PP-OCRv5 達到最高平均 1-編輯距離分數,超越幾倍大小嘅多模態 VLM。佢支援五種腳本類型,同超過 40 種語言。
不過,社區有些人質疑佢嘅多語言範圍。Foqum 首席數據科學家 Pablo González de Prado Salas 評論道:
“有啲失望見到佢限於英文加中文。你對其他語言性能有直覺嗎?”
其他人強調佢嘅可靠性同之前 PaddleOCR 引擎嘅演進。OCR 系統管理員 Dario Finardi 指出:
“我可以確認 PaddleOCR 真係一個好引擎。我哋由 v2.x 開始用,仲用自製訓練集微調 PP-OCRv3 引擎(大約 160,000 張標記圖像)。微調修復咗一些常見錯誤(字間缺少空格)。而家我哋轉用新 v3.x + PP-OCRv5:真係大躍進!不過空格問題依然存在。”
PP-OCRv5 嘅兩階段管道包括:
– 圖像預處理 — 修正旋轉同扭曲。
– 文字檢測 — 用邊界框定位文字行。
– 文字方向分類 — 確保正確對齊。
– 文字辨識 — 解碼字符成字符串。
呢個模組化令模型輕量,同更容易為特定用例微調,相比單一 VLM。
而家 Hugging Face Spaces 有 demo,用戶可以上傳 PDF 或圖像,收到即時 OCR 輸出。開發者都可以透過 PaddleOCR 本地安裝模型,支援 CPU 或 GPU,跨環境容易用到。閱讀原文