Azure OpenAI 新增即時語音模型與增強推理能力

thumbnail

Microsoft Azure AI 最近推出了一系列新功能，進一步提升其生成式人工智慧（AI）的能力，特別是在 Azure OpenAI 服務中。當中最矚目的更新包括 gpt-4o-mini-realtime-preview (2024-12-17) 即時語音模型同埋 o3-mini (2025-01-31) 推理模型嘅推出。呢啲新功能旨在為開發者同企業提供更高效、低延遲嘅語音交互同更強大嘅推理能力，滿足唔同應用場景嘅需求，例如客戶服務、語音助手同即時翻譯等。

話說回來，gpt-4o-mini-realtime-preview 係一個專為低延遲、即時語音交互優化嘅模型，建基於 GPT-4o 語音模型嘅基礎上。佢同 completions API 用嘅係同一個底層模型，但特別針對即時應用場景進行咗優化。呢個模型喺 東美2區 同 瑞典中部 地區已經可以全球部署，支援多種語音交互場景，例如即時對話同語音分析。想了解更多，開發者可以參考 Microsoft 提供嘅 即時語音快速入門指南。另外，gpt-4o-realtime-preview 模型仲新增咗 提示緩存 功能，幫到節省計算資源同提升處理速度。佢仲支援咗八種新語音選項，包括 alloy、ash、ballad、coral、echo、sage、shimmer 同 verse，畀用戶有更多選擇去個人化語音體驗。

除此之外，o3-mini 推理模型係另一個重大突破，專注於提升複雜問題嘅推理能力。根據 Microsoft 嘅介紹，呢個模型喺處理邏輯推理同數據分析時表現更加出色，特別適合需要深入分析嘅應用場景，例如財務預測、科學研究同商業決策。呢個模型同樣喺 東美2區 同 瑞典中部 地區提供全球部署，確保企業可以喺多個地區穩定使用。想知道更多關於推理模型嘅細節，可以睇吓 Microsoft 提供嘅 推理模型指南。

除咗呢啲模型更新，Azure OpenAI 仲引入咗 gpt-4o-audio-preview 模型，將語音功能整合到現有嘅 /chat/completions API 入面。呢個模型支援語音生成同分析，進一步擴展咗 AI 喺語音同文本交互應用嘅可能性。Microsoft 仲提到咗，佢哋已經將速率限制從原本嘅每分鐘連接數改為 RPM（每分鐘請求數） 同 TPM（每分鐘令牌數），為 gpt-4o-realtime-preview 模型提供咗 100K TPM 同 1K RPM 嘅限制，畀開發者有更大嘅靈活性去處理大規模嘅語音同文本請求。

喺呢啲更新背後，Microsoft 強調佢哋致力於推動負責任嘅 AI 發展。佢哋喺 Azure AI Foundry 平台入面提供咗新嘅工具同資源，幫開發者喺開發同部署 AI 應用時確保數據安全同合規性。例如，Azure AI Studio 現已同 Microsoft Purview 整合（目前處於預覽階段），可以幫到檢測 AI 應用中嘅潛在數據風險，同時提供加密功能同監控工具，確保敏感數據嘅安全。呢啲功能對於醫療、金融同法律等對數據安全要求高嘅行業尤其重要。

總括來講，呢啲新功能反映咗 Microsoft 喺生成式 AI 領域嘅持續創新，特別係喺語音交互同推理能力方面嘅突破。開發者同企業可以利用呢啲工具，打造更智能、更高效嘅應用，進一步推動數碼轉型。想了解更多，可以瀏覽 Microsoft Learn。

Post Views: 959