Docling 是一個開源的文檔處理工具包,由 IBM Research 開發並於 2024 年 7 月開源,現由 LF AI & Data Foundation 託管,採用 MIT 許可證。它的主要目標是簡化多種格式文檔的處理,將其轉換為適合生成式 AI(Generative AI)應用的格式,例如 RAG(檢索增強生成)和問答系統。以下是對 Docling 的介紹,基於其 GitHub 頁面和相關資料:
Docling 專注於高效解析和轉換文檔,提供以下關鍵功能:
DoclingDocument
格式,提供結構化且表達豐富的統一表示,方便後續處理。
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())
Docling 適用於多種企業級場景,特別是需要從複雜文檔中提取結構化數據並用於 AI 訓練或推理的場景:
Docling 可通過包管理器輕鬆安裝,例如:
pip install docling
支援 Python 3.9 至 3.13,並提供 Docker 容器映像(如 quay.io/docling-project/docling-serve
)以運行 API 服務。詳細安裝和使用指南可在官方文檔中找到。
若在項目中使用 Docling,官方建議引用以下技術報告:
@techreport{Docling,
author = {Deep Search Team},
month = {8},
title = {Docling Technical Report},
url = {https://arxiv.org/abs/2408.09869},
eprint = {2408.09869},
doi = {10.48550/arXiv.2408.09869},
version = {1.0.0},
year = {2024}
}
Docling 團隊計劃擴展其功能,處理更複雜的數據類型,如數學公式、圖表和商業表單,進一步釋放企業數據在 AI 應用中的潛力。
Docling 是一個功能強大、易於使用的開源文檔處理工具,特別適合需要高效解析和轉換複雜文檔的生成式 AI 應用。其先進的 PDF 解析能力、與主流 AI 框架的無縫整合以及本地運行特性,使其成為企業和開發者的理想選擇。更多詳情可訪問 Docling GitHub 頁面 或 官方文檔。