通義千問團隊喺2025年7月23號正式發布咗Qwen3-Coder,呢個係佢哋至今最具代理能力的編程模型。Qwen3-Coder有唔同尺寸嘅版本,而最強大嘅版本係Qwen3-Coder-480B-A35B-Instruct,係一個擁有4800億總參數、激活350億參數嘅混合專家模型(MoE)。呢個模型原生支援256K token嘅上下文長度,仲可以透過YaRN技術擴展到100萬token,喺代碼生成、代碼修復同代理任務(例如瀏覽器操作同工具使用)方面表現出色,據稱同Claude Sonnet 4嘅性能不相伯仲。通義千問仲同時開源咗一個命令行工具Qwen Code,專為代理式編程設計,幫到開發者更有效咁處理複雜嘅編程任務。呢個模型喺魔搭社區同HuggingFace等平台已經開源,全球開發者可以免費下載同使用,仲好快會接入阿里雲嘅通義靈碼產品同API,進一步方便應用同部署。
同現時業界普遍專注於競賽類代碼生成唔同,通義千問團隊認為所有編程任務都天然適合執行驅動嘅大規模強化學習(RL)。為咗提升Qwen3-Coder嘅代碼能力,佢哋喺預訓練階段用咗多方面嘅擴展策略:首先係數據擴展,總計用咗7.5萬億token嘅訓練數據,其中70%係代碼數據,喺保持通用同數學能力嘅同時,大幅提升咗編程能力;其次係上下文擴展,Qwen3-Coder原生支援256K token上下文,透過YaRN可擴展至1M,專為倉庫級同動態數據(例如Pull Request)優化,方便進行代理式編程;再者係合成數據擴展,利用Qwen2.5-Coder對低質數據進行清洗同重寫,大幅提升數據質素。喺後訓練階段,佢哋仲引入咗Agent RL(代理強化學習),鼓勵模型透過多輪交互使用工具解決問題。為咗應對環境擴展嘅挑戰,通義團隊仲借助阿里雲嘅基礎設施,實現同時運行2萬個獨立環境,提供大規模強化學習反饋同評測,最終喺SWE-Bench Verified上實現咗開源模型嘅最佳效果(SOTA)。
Qwen3-Coder嘅開源策略同以往唔同,佢唔單止提供咗一個強大嘅480B模型,仲有其他尺寸嘅模型,覆蓋從0.6B到480B,適用於唔同場景,由端側設備到雲端部署都得。呢啲模型全部喺Apache 2.0許可下開源,開發者可以自由下載、定制同商用。Qwen Code命令行工具係基於Gemini Code二次開發,經過prompt同工具調用協議嘅適配,最大程度發揮Qwen3-Coder喺代理式編程任務上嘅表現。開發者仲可以將Qwen3-Coder同其他優秀嘅編程工具(例如Claude Code同Cline)結合使用,實現更靈活嘅API集成。喺實際應用上,Qwen3-Coder支援92種編程語言,包括Python、C++、Java、JavaScript等,覆蓋主流開發需求,特別喺多語言代碼生成同系統編程上有突出表現。佢嘅256K token上下文支援仲讓佢可以處理大型代碼庫,適合企業級軟件或開源倉庫嘅分析同優化。
為咗方便開發者,通義千問仲提供咗詳細嘅使用指南,例如點樣配置ModelScope API同Qwen CLI。開發者可以透過簡單嘅命令,例如生成JSDoc注釋或處理git提交,實現自動化嘅編程任務。Qwen3-Coder嘅API已經上線阿里雲百鍊平台,企業同個人開發者可以透過API快速將模型融入自己嘅工作流。呢啲功能同開源策略讓Qwen3-Coder唔單止係一個技術突破,仲係一個真正面向全球開發者嘅實用工具,預計喺未來幾個月會喺開源同企業應用領域掀起新嘅熱潮。