Keras 喺最新嘅更新中引入咗一系列針對語音處理同生成式 AI 嘅新功能,令呢個深度學習框架喺多模態應用中更具競爭力。其中一個矚目嘅更新係 keras_hub.models.CausalLM 同 keras_hub.models.TextToImage,分別針對語言生成同文本到圖像生成提供咗強大嘅支援。呢啲功能特別適合用於開發聊天機械人、語音助手同創意生成應用,例如自動生成圖像或文本內容。話說回來,keras_hub.models.CausalLM 可以從預設模型(例如 gemma2_instruct_2b_en)載入,支援 float16 數據類型,喺生成長文本時表現穩定,最大長度可達 512 個令牌。開發者可以利用呢個模型快速構建自然語言處理應用,例如自動回覆系統或內容生成工具。
喺語音處理方面,Keras 引入咗新嘅語音處理層同工具,支援實時語音數據處理同分析。呢啲功能建基於 Keras 嘅多後端架構,開發者可以喺 TensorFlow、JAX 或 PyTorch 之間選擇最適合嘅後端,確保喺唔同硬件上嘅高效運行。例如,keras.layers.Resizing 層新增咗 antialias 參數,幫到喺處理語音或圖像數據時減少鋸齒效應,提升輸出質量。同時,keras.utils.FeatureSpace 現已支援 tf.data 管道,喺非 TensorFlow 後端下都可以順利運行,方便開發者構建複雜嘅數據預處理流程。
生成式 AI 方面,keras_hub.models.TextToImage 模型(例如 stable_diffusion_3_medium)可以根據文本提示生成高質量圖像。舉個例,開發者可以用類似「叢林中嘅宇航員,細緻描繪」嘅提示,生成具創意嘅圖像內容。呢個功能對於廣告、遊戲設計同藝術創作等領域有巨大嘅應用潛力。Keras 仲提供咗豐富嘅預訓練模型同代碼示例,全部托管喺 GitHub 上,開發者可以透過 keras.io 嘅代碼示例頁面搵到超過 150 個詳細註釋嘅 Jupyter Notebook,涵蓋電腦視覺、自然語言處理同生成式 AI 等多個領域。
除咗新功能,Keras 亦都優化咗訓練同推理嘅性能。例如,fit()、evaluate() 同 predict() 函數現已支援非同步日誌記錄,喺 TPU 等加速器上可以實現 100% 緊湊堆疊,顯著減少訓練時間。同時,keras.RematScope 同 keras.remat API 提供咗細粒度嘅重物料化控制,允許開發者針對特定層(例如大型層)啟用重物料化,進一步節省內存同提升效率。呢啲功能對於處理大型模型同大規模數據集尤其重要。Keras 仲改善咗 StringLookup 層,現已支援 tf.SparseTensor 輸入,方便處理稀疏數據。
總體嚟講,Keras 嘅呢啲新功能為語音處理同生成式 AI 應用開闢咗新嘅可能性,同時保持咗框架一貫嘅易用性同靈活性。開發者可以利用呢啲工具,快速構建同部署創新型 AI 應用。想了解更多,可以瀏覽 Keras 官方網站。