Microsoft Azure AI 最近推出了一系列新功能,進一步提升其生成式人工智慧(AI)的能力,特別是在 Azure OpenAI 服務中。當中最矚目的更新包括 gpt-4o-mini-realtime-preview (2024-12-17) 即時語音模型同埋 o3-mini (2025-01-31) 推理模型嘅推出。呢啲新功能旨在為開發者同企業提供更高效、低延遲嘅語音交互同更強大嘅推理能力,滿足唔同應用場景嘅需求,例如客戶服務、語音助手同即時翻譯等。
話說回來,gpt-4o-mini-realtime-preview 係一個專為低延遲、即時語音交互優化嘅模型,建基於 GPT-4o 語音模型嘅基礎上。佢同 completions API 用嘅係同一個底層模型,但特別針對即時應用場景進行咗優化。呢個模型喺 東美2區 同 瑞典中部 地區已經可以全球部署,支援多種語音交互場景,例如即時對話同語音分析。想了解更多,開發者可以參考 Microsoft 提供嘅 即時語音快速入門指南。另外,gpt-4o-realtime-preview 模型仲新增咗 提示緩存 功能,幫到節省計算資源同提升處理速度。佢仲支援咗八種新語音選項,包括 alloy、ash、ballad、coral、echo、sage、shimmer 同 verse,畀用戶有更多選擇去個人化語音體驗。
除此之外,o3-mini 推理模型係另一個重大突破,專注於提升複雜問題嘅推理能力。根據 Microsoft 嘅介紹,呢個模型喺處理邏輯推理同數據分析時表現更加出色,特別適合需要深入分析嘅應用場景,例如財務預測、科學研究同商業決策。呢個模型同樣喺 東美2區 同 瑞典中部 地區提供全球部署,確保企業可以喺多個地區穩定使用。想知道更多關於推理模型嘅細節,可以睇吓 Microsoft 提供嘅 推理模型指南。
除咗呢啲模型更新,Azure OpenAI 仲引入咗 gpt-4o-audio-preview 模型,將語音功能整合到現有嘅 /chat/completions API 入面。呢個模型支援語音生成同分析,進一步擴展咗 AI 喺語音同文本交互應用嘅可能性。Microsoft 仲提到咗,佢哋已經將速率限制從原本嘅每分鐘連接數改為 RPM(每分鐘請求數) 同 TPM(每分鐘令牌數),為 gpt-4o-realtime-preview 模型提供咗 100K TPM 同 1K RPM 嘅限制,畀開發者有更大嘅靈活性去處理大規模嘅語音同文本請求。
喺呢啲更新背後,Microsoft 強調佢哋致力於推動負責任嘅 AI 發展。佢哋喺 Azure AI Foundry 平台入面提供咗新嘅工具同資源,幫開發者喺開發同部署 AI 應用時確保數據安全同合規性。例如,Azure AI Studio 現已同 Microsoft Purview 整合(目前處於預覽階段),可以幫到檢測 AI 應用中嘅潛在數據風險,同時提供加密功能同監控工具,確保敏感數據嘅安全。呢啲功能對於醫療、金融同法律等對數據安全要求高嘅行業尤其重要。
總括來講,呢啲新功能反映咗 Microsoft 喺生成式 AI 領域嘅持續創新,特別係喺語音交互同推理能力方面嘅突破。開發者同企業可以利用呢啲工具,打造更智能、更高效嘅應用,進一步推動數碼轉型。想了解更多,可以瀏覽 Microsoft Learn。