Hugging Face 啱啱推出咗 FinePDFs,呢個係全球最大嘅公開 PDF 資料集,總共有 3 萬億 tokens,全都嚟自 4.75 億份文件,涵蓋咗 1733 種語言。呢個 dataset 專門設計嚟訓練 AI 模型,特別適合處理文件同 PDF 相關嘅任務。Hugging Face 話,佢哋希望透過開放源碼同科學嚟推動 AI 發展,畀大家更容易用到高質素資料。了解更多