DeepSeek-V3.1：AI性能再突破，挑戰全球AI霸權

中國杭州的AI初創公司DeepSeek於2025年8月發布其最新大型語言模型DeepSeek-V3.1，引起全球科技界的廣泛關注。該模型以6710億參數的規模，結合高效的訓練方法，據稱在多項基準測試中表現超越OpenAI的GPT-4o及Meta的Llama 3.1 405B，卻僅需550萬美元的訓練成本，遠低於西方對手的數億美元投入。此突破不僅展示中國在AI領域的技術實力，也對全球AI競賽格局構成挑戰。

DeepSeek-V3.1在設計上針對多語言推理、程式碼生成及複雜問題解決進行優化。據Techcrunch報導，該模型在程式設計競賽平台Codeforces的測試中，顯示出優於其他主流模型的表現，尤其在將新程式碼整合至現有代碼庫的任務中表現出色。此外，V3.1支援更長的上下文窗口，最高可達256K tokens，這使其在處理長篇文本和複雜對話時更具優勢。這種高效能的背後，是DeepSeek在資源受限環境下的創新，例如使用較舊款的Nvidia A100 GPU而非最新晶片，卻仍達成卓越成果。Perplexity首席執行官Aravind Srinivas表示，這種「因限制而生的創新」讓DeepSeek在技術效率上領先。

然而，DeepSeek-V3.1的發布也引發了一些爭議。據報導，其訓練過程曾因使用華為Ascend晶片遇到穩定性問題，導致原定計劃推遲。最終，DeepSeek轉而依賴Nvidia晶片完成訓練，這也凸顯了中國AI產業在高端晶片供應上的挑戰。此外，該模型在處理敏感話題時，據稱會受到中國當局的內容審查影響，例如對某些歷史事件的回應與官方立場一致，這限制了其在全球市場的完全開放性。儘管如此，DeepSeek的開源策略使其模型廣受開發者歡迎，許多初創公司選擇使用V3.1以降低成本。

喺香港話嚟講，DeepSeek-V3.1真是一個大突破！佢唔單止喺AI性能上同國際大廠拗手瓜，仲用少咗好多資源，成本低到得五六百萬美金，相比OpenAI動輒過億美金真是一個天一個地。佢嘅6710億參數好似一個超級大腦，幫到你寫程式、翻譯、甚至解決一啲好複雜嘅問題。尤其係佢可以handle好長嘅文本，256K tokens嘅上下文窗口，啱晒用來做大篇幅嘅分析或者對話。不過，聽講佢用華為晶片出咗啲亂子，最後都要靠Nvidia晶片救場，反映咗中國AI喺硬件上面臨嘅挑戰。加上有啲敏感話題會被審查，呢個可能會影響佢喺國際市場嘅接受度。但係對一啲想慳錢嘅初創公司嚟講，DeepSeek嘅開源模型真是一個好吸引嘅選擇，因為佢又平又強！

總體而言，DeepSeek-V3.1的推出不僅是技術上的里程碑，也為中國AI產業在全球競爭中贏得了一席之地。未來，隨著R2及V4模型的開發，DeepSeek或將進一步改變AI行業的遊戲規則。對於全球科技公司來說，這是一個必須正視的「警鐘」，也是一個重新審視AI發展策略的契機。

Post Views: 758