DeepSeek-V3.1:AI性能再突破,挑戰全球AI霸權

Back
Category : News

中國杭州的AI初創公司DeepSeek於2025年8月發布其最新大型語言模型DeepSeek-V3.1,引起全球科技界的廣泛關注。該模型以6710億參數的規模,結合高效的訓練方法,據稱在多項基準測試中表現超越OpenAI的GPT-4o及Meta的Llama 3.1 405B,卻僅需550萬美元的訓練成本,遠低於西方對手的數億美元投入。此突破不僅展示中國在AI領域的技術實力,也對全球AI競賽格局構成挑戰。

DeepSeek-V3.1在設計上針對多語言推理、程式碼生成及複雜問題解決進行優化。據Techcrunch報導,該模型在程式設計競賽平台Codeforces的測試中,顯示出優於其他主流模型的表現,尤其在將新程式碼整合至現有代碼庫的任務中表現出色。此外,V3.1支援更長的上下文窗口,最高可達256K tokens,這使其在處理長篇文本和複雜對話時更具優勢。這種高效能的背後,是DeepSeek在資源受限環境下的創新,例如使用較舊款的Nvidia A100 GPU而非最新晶片,卻仍達成卓越成果。Perplexity首席執行官Aravind Srinivas表示,這種「因限制而生的創新」讓DeepSeek在技術效率上領先。

然而,DeepSeek-V3.1的發布也引發了一些爭議。據報導,其訓練過程曾因使用華為Ascend晶片遇到穩定性問題,導致原定計劃推遲。最終,DeepSeek轉而依賴Nvidia晶片完成訓練,這也凸顯了中國AI產業在高端晶片供應上的挑戰。此外,該模型在處理敏感話題時,據稱會受到中國當局的內容審查影響,例如對某些歷史事件的回應與官方立場一致,這限制了其在全球市場的完全開放性。儘管如此,DeepSeek的開源策略使其模型廣受開發者歡迎,許多初創公司選擇使用V3.1以降低成本。

喺香港話嚟講,DeepSeek-V3.1真是一個大突破!佢唔單止喺AI性能上同國際大廠拗手瓜,仲用少咗好多資源,成本低到得五六百萬美金,相比OpenAI動輒過億美金真是一個天一個地。佢嘅6710億參數好似一個超級大腦,幫到你寫程式、翻譯、甚至解決一啲好複雜嘅問題。尤其係佢可以handle好長嘅文本,256K tokens嘅上下文窗口,啱晒用來做大篇幅嘅分析或者對話。不過,聽講佢用華為晶片出咗啲亂子,最後都要靠Nvidia晶片救場,反映咗中國AI喺硬件上面臨嘅挑戰。加上有啲敏感話題會被審查,呢個可能會影響佢喺國際市場嘅接受度。但係對一啲想慳錢嘅初創公司嚟講,DeepSeek嘅開源模型真是一個好吸引嘅選擇,因為佢又平又強!

總體而言,DeepSeek-V3.1的推出不僅是技術上的里程碑,也為中國AI產業在全球競爭中贏得了一席之地。未來,隨著R2及V4模型的開發,DeepSeek或將進一步改變AI行業的遊戲規則。對於全球科技公司來說,這是一個必須正視的「警鐘」,也是一個重新審視AI發展策略的契機。