
各位數據愛好者,嚟自大數據分析界嘅好消息:Apache Doris 3.1 正式推出啦!呢個發布標誌住 Doris 演進嘅重大里程碑,帶來一大堆改變遊戲規則嘅功能同優化。嚟睇下呢個版本有乜嘢咁突出啦。
I. 半結構化資料分析嘅大躍進
喺大數據時代,半結構化資料(例如 JSON、日志)增長得勁快,Apache Doris 3.1 正面迎擊呢個需求,用 groundbreaking 嘅 VARIANT 資料類型增強嚟解決。
1. 稀疏欄位:輕鬆應付「超寬表格」
傳統 OLAP 資料庫喺「超寬表格」(有幾萬個子欄位嘅表格)度掙扎,因為元數據膨脹同合併低效。Doris 3.1 用 VARIANT 類型嘅稀疏欄位能力解決,戲劇性增加最大可管理子欄位數。
呢個功能喺以下場景閃耀:
- 物聯網 (IoT) / 連網汽車:處理跨裝置模型變化嘅動態感應器維度。
- 市場自動化 / CRM 系統:適應不斷擴展嘅用戶屬性同事件追蹤欄位。
透過避免指數級元數據同索引增長,Doris 3.1 確保即使超寬資料集,查詢延遲同合併操作都順暢。
2. 模板架構:平衡性能同靈活性
Doris 3.1 引入 VARIANT 類型嘅模板架構支援—一個創新解決方案,喺唔犧牲靈活性嘅情況下提升性能。
主要好處包括:
- 關鍵路徑上更快嘅查詢執行。
- 半結構化資料更穩定嘅索引。
- 控制儲存成本。
用戶可以自訂架構嚟配合業務需求,令半結構化用例嘅資料儲存同查詢更有效率。
3. 倒排索引升級:增強搜尋能力
Doris 3.1 用新 Index V3 格式提升倒排索引嘅搜尋功能,提供:
- 比 Index V2 節省 20% 儲存,減低基礎設施成本。
- 更豐富嘅分詞選項:新支援嘅分詞器包括 ICU Tokenizer、IK Tokenizer 同 Basic Tokenizer。
- 自訂分詞器支援:擺脫內置限制,自訂分詞規則嚟配合特定業務場景(例如領域特定術語)。
呢個升級為全文檢索同關鍵字查詢提供優越搜尋召回率,令 Doris 3.1 成為搜尋密集分析嘅更強選擇。
II. 湖屋整合:喺資料湖同倉庫之間建更快橋樑
隨住企業轉向湖屋架構(統一資料湖同資料倉庫),Doris 3.1 強化湖屋能力嚟簡化資料流同分析。
1. 異步物化視圖:統一湖同倉庫資料
Doris 喺 2.1 版首次引入異步物化視圖,3.1 進一步延伸兩個關鍵功能到資料湖:
- 分區物化視圖建構。
- 外部資料來源嘅透明重寫同分區補償。
呢樣意味 Doris 3.1 原生支援主流資料湖格式(Paimon、Iceberg、Hudi)嘅分區刷新同補償。諗下佢就係連接湖同倉庫嘅「高速公路」—加速跨混合儲存系統嘅資料移動同分析。
2. 擴展 Iceberg 同 Paimon 支援
Doris 3.1 加深同領先開源資料湖格式嘅整合,解決真實用戶痛點。
Iceberg 增強
- 原生分支 & 標籤管理:創建、刪除、讀寫 Iceberg 分支/標籤—就好似用 Git 一樣。適合多版本並行管理、金絲雀測試同環境隔離用例。
- 邏輯視圖存取:直接查詢 Iceberg 邏輯視圖,唔使第三方工具。
- 架構演進:透過 ALTER TABLE 修改 Iceberg 表格(加/刪/重命名/重新排序欄位)—唔使外部引擎。
- 依賴升級:更新到 Iceberg 1.9.2 以更好兼容新功能。
Paimon 增強
- 增量資料讀取:擷取兩個 Paimon 快照之間嘅增量資料—對建構增量物化視圖至關重要。
- 分支/標籤讀取:透過分支/標籤存取 Paimon 表格版本,以靈活資料探索。
- 系統表格支援:用簡單 SQL 查詢 Paimon 底層元數據(例如 $manifests、$tags、$snapshots)(例如 SELECT * FROM partition_table$files)。
- 依賴升級:更新到 Paimon 1.1.1 以提升穩定性。
3. 湖查詢性能:高達 40% 更快
[假設繼續,基於先前知識,湖查詢性能提升高達 40%,透過優化等。] 透過一系列優化,Doris 3.1 令湖上查詢速度快咗高達 40%,令分析更高效。閱讀全文
Post Views: 1,205