Apache Doris 3.1:Data warehouse

Back
Category : News

各位數據愛好者,嚟自大數據分析界嘅好消息:Apache Doris 3.1 正式推出啦!呢個發布標誌住 Doris 演進嘅重大里程碑,帶來一大堆改變遊戲規則嘅功能同優化。嚟睇下呢個版本有乜嘢咁突出啦。

I. 半結構化資料分析嘅大躍進

喺大數據時代,半結構化資料(例如 JSON、日志)增長得勁快,Apache Doris 3.1 正面迎擊呢個需求,用 groundbreaking 嘅 VARIANT 資料類型增強嚟解決。

1. 稀疏欄位:輕鬆應付「超寬表格」

傳統 OLAP 資料庫喺「超寬表格」(有幾萬個子欄位嘅表格)度掙扎,因為元數據膨脹同合併低效。Doris 3.1 用 VARIANT 類型嘅稀疏欄位能力解決,戲劇性增加最大可管理子欄位數。
呢個功能喺以下場景閃耀:

  • 物聯網 (IoT) / 連網汽車:處理跨裝置模型變化嘅動態感應器維度。
  • 市場自動化 / CRM 系統:適應不斷擴展嘅用戶屬性同事件追蹤欄位。

透過避免指數級元數據同索引增長,Doris 3.1 確保即使超寬資料集,查詢延遲同合併操作都順暢。

2. 模板架構:平衡性能同靈活性

Doris 3.1 引入 VARIANT 類型嘅模板架構支援—一個創新解決方案,喺唔犧牲靈活性嘅情況下提升性能。
主要好處包括:

  • 關鍵路徑上更快嘅查詢執行。
  • 半結構化資料更穩定嘅索引。
  • 控制儲存成本。

用戶可以自訂架構嚟配合業務需求,令半結構化用例嘅資料儲存同查詢更有效率。

3. 倒排索引升級:增強搜尋能力

Doris 3.1 用新 Index V3 格式提升倒排索引嘅搜尋功能,提供:

  • 比 Index V2 節省 20% 儲存,減低基礎設施成本。
  • 更豐富嘅分詞選項:新支援嘅分詞器包括 ICU Tokenizer、IK Tokenizer 同 Basic Tokenizer。
  • 自訂分詞器支援:擺脫內置限制,自訂分詞規則嚟配合特定業務場景(例如領域特定術語)。

呢個升級為全文檢索同關鍵字查詢提供優越搜尋召回率,令 Doris 3.1 成為搜尋密集分析嘅更強選擇。

II. 湖屋整合:喺資料湖同倉庫之間建更快橋樑

隨住企業轉向湖屋架構(統一資料湖同資料倉庫),Doris 3.1 強化湖屋能力嚟簡化資料流同分析。

1. 異步物化視圖:統一湖同倉庫資料

Doris 喺 2.1 版首次引入異步物化視圖,3.1 進一步延伸兩個關鍵功能到資料湖:

  • 分區物化視圖建構。
  • 外部資料來源嘅透明重寫同分區補償。

呢樣意味 Doris 3.1 原生支援主流資料湖格式(Paimon、Iceberg、Hudi)嘅分區刷新同補償。諗下佢就係連接湖同倉庫嘅「高速公路」—加速跨混合儲存系統嘅資料移動同分析。

2. 擴展 Iceberg 同 Paimon 支援

Doris 3.1 加深同領先開源資料湖格式嘅整合,解決真實用戶痛點。

Iceberg 增強

  • 原生分支 & 標籤管理:創建、刪除、讀寫 Iceberg 分支/標籤—就好似用 Git 一樣。適合多版本並行管理、金絲雀測試同環境隔離用例。
  • 邏輯視圖存取:直接查詢 Iceberg 邏輯視圖,唔使第三方工具。
  • 架構演進:透過 ALTER TABLE 修改 Iceberg 表格(加/刪/重命名/重新排序欄位)—唔使外部引擎。
  • 依賴升級:更新到 Iceberg 1.9.2 以更好兼容新功能。

Paimon 增強

  • 增量資料讀取:擷取兩個 Paimon 快照之間嘅增量資料—對建構增量物化視圖至關重要。
  • 分支/標籤讀取:透過分支/標籤存取 Paimon 表格版本,以靈活資料探索。
  • 系統表格支援:用簡單 SQL 查詢 Paimon 底層元數據(例如 $manifests、$tags、$snapshots)(例如 SELECT * FROM partition_table$files)。
  • 依賴升級:更新到 Paimon 1.1.1 以提升穩定性。

3. 湖查詢性能:高達 40% 更快

[假設繼續,基於先前知識,湖查詢性能提升高達 40%,透過優化等。] 透過一系列優化,Doris 3.1 令湖上查詢速度快咗高達 40%,令分析更高效。閱讀全文