![]()
喂,大家好呀!今日 Microsoft 宣佈咗 adlfs 最新版本 2025.8.0 出爐喇,呢個係一個超方便嘅 Python 檔案系統介面,專門用嚟連繫 Azure Blob Storage 同 Azure Data Lake Storage 呀。
數據專家成日要面對程式碼同雲端儲存之間嘅橋樑問題,無論規模幾大都一樣。Python 嘅 fsspec 標準就係萬能嘅『檔案適配器』,而 adlfs 就係佢專門為 Azure 打造嘅高效門戶喇。雖然任何 Python 程式碼都可以用 adlfs,但佢特別厲害嘅地方係原生整合咗 Dask、Pandas、Ray、PyTorch、PyIceberg 等框架,對於 Azure 中心嘅 ML、數據科學同 ETL 工作負載嚟講,係絕佳選擇。例如開發者可以用 adlfs 載入數據集同儲存模型檢查點到 Azure,用 PyTorch 同 PyTorch Lightning 都得。
呢啲 adlfs 嘅改進,一次過惠及晒廣泛嘅 AI/ML 工具。令 Azure Storage 喺 adlfs 入面更快更可靠,每個用 fsspec 嘅工具,從 PyTorch 到 pandas,都喺 Azure 上得到提升。唔使額外整合,轉換自本地檔案或其他雲端檔案到 Azure,通常只需改改檔案路徑(例如由 file:// 或 s3:// 改成 az://)或設定一吓就得。
2025.8.0 版本帶來幾個重點提升,集中喺效能、彈性同易用性。總括嚟講,呢個更新提供更快嘅檔案操作(透過並行上傳),同埋更好嘅可靠性(預設區塊大小由 1 GiB 減到 50 MiB,減少超時同連接問題,仲修復咗地理冗餘儲存嘅情況)。寫大檔案快咗兩至五倍,因為支援並發區塊上傳;預設區塊大小減低,解決咗大檔案上傳嘅超時同連接問題。
adlfs 喺 PyPI 上架,你可以用最愛嘅套件管理器裝,例如 pip install adlfs==2025.8.0。
adlfs 可以直接用喺 Ray 上,啟用 Ray 數據管線入面嘅分散式存取 Azure Blob Storage。你可以傳入 adlfs 嘅 AzureBlobFileSystem 做 filesystem 參數喺 Ray 嘅數據載入函數,咁樣數據就可以喺 Ray 叢集入面並行讀取自 Azure 儲存。你可以用各種方法設定認證,包括 Azure CLI 憑證、環境變數、管理身份或明確參數。呢種靈活性令你容易喺唔同開發環境之間切換。
Microsoft 積極貢獻 adlfs 套件,確保客戶喺 Azure Blob Storage 互動數據時有最佳體驗。如果你係搞 Python 或 AI/ML 框架嘅,升級到 adlfs 2025.8.0 試吓啦。如果你已經用緊呢啲框架,我哋嘅改進會自動適用喺你嘅應用,唔使改程式碼。
我哋好想聽你嘅反饋。如果你有功能要求或遇到問題,嚟 adlfs GitHub repo 講吓啦。社群意見會直接影響我哋下一輪貢獻。我哋好興奮持續改善 AI 工作負載點樣利用 Azure Storage。