AI編碼工具在勁嘅開發者面前表現不佳

Back
Category : News

一項由非營利AI研究組織METR進行嘅最新研究,揭示咗AI編碼工具喺實際應用中嘅局限性,挑戰咗坊間認為AI可以大幅提升軟件開發效率嘅觀點。呢項研究喺2025年2月至6月進行,係一個隨機對照試驗(RCT),涉及16位經驗豐富嘅開源軟件開發者,佢哋喺熟悉嘅大型代碼庫上完成246項真實任務。研究結果令人意外:使用AI編碼工具(例如Cursor Pro同Claude 3.5/3.7 Sonnet)嘅開發者,完成任務嘅時間比唔用AI嘅情況慢咗19%。

喺研究開始前,開發者預測AI工具會將任務完成時間縮短24%,但實際結果同預期背道而馳。研究發現,開發者喺使用AI工具時,需要花更多時間喺編寫提示(prompting)同審查AI生成嘅代碼,而唔係直接編碼。METR指出,開發者接受AI生成建議嘅比例少於44%,而且75%嘅開發者表示會逐行檢查AI輸出嘅代碼,56%嘅情況下需要對AI生成嘅代碼進行大幅修改。呢啲額外嘅審查同修改工作,導致整體效率下降,拖慢咗開發進度。

點解AI編碼工具會令效率降低?研究提出咗幾個可能原因。首先,呢項研究涉及嘅代碼庫規模龐大,平均超過100萬行代碼,包含複雜嘅依賴關係同嚴格嘅風格指南。參與嘅開發者平均有4.9年喺相關代碼庫嘅經驗,佢哋對項目嘅隱性知識(tacit knowledge)同上下文理解遠超AI工具嘅能力。AI喺理解大型代碼庫嘅上下文同遵循特定項目規範方面表現不足,生成嘅代碼經常需要調整以符合標準。其次,AI生成嘅代碼可靠性偏低,開發者需要額外時間去測試同修正錯誤,增加咗工作負擔。METR仲提到,部分開發者喺「AI允許」嘅任務中過度依賴或實驗AI工具,甚至喺唔必要嘅情況下使用,進一步影響效率。

值得一提嘅係,研究參與者中只有56%嘅開發者有使用Cursor嘅經驗,雖然93%嘅人曾經用過其他網頁版大語言模型(LLM)。研究開始前,所有參與者都接受咗Cursor嘅基本培訓,但即使喺研究期間逐漸熟悉工具,效率都無顯著提升。METR研究員強調,呢啲結果並唔代表AI編碼工具完全無用,而係反映咗喺特定場景下(例如大型、成熟嘅開源項目同經驗豐富嘅開發者),AI工具目前嘅局限性。佢哋亦指出,AI技術進步迅速,未來可能會克服呢啲問題。METR嘅其他研究顯示,AI能夠處理嘅軟件任務範圍每7個月翻倍,意味住未來嘅AI工具可能會表現更好。

研究仲揭示咗一個重要嘅「認知差距」:開發者普遍認為AI工具幫佢哋加快咗20%嘅工作速度,但實際數據顯示效率反而下降。呢種誤解唔單止存在於開發者之間,甚至經濟學家同機器學習專家都高估咗AI嘅影響,分別預測AI會提升39%同38%嘅生產力。Greyhound Research嘅首席分析師Sanchit Vir Gogia警告,企业可能會將開發者嘅主觀滿意度同實際生產力混淆,忽略咗AI整合到現實工作流程中嘅摩擦成本,例如下游重工、代碼變動同同行評審嘅額外時間。呢項研究提醒業界,必須以更嚴謹嘅方式評估AI工具嘅實際影響,而唔係單靠主觀感覺或廠商宣傳。

總結嚟講,METR嘅研究唔係否定AI編碼工具嘅潛力,而係喺2025年初嘅技術水平下,揭示咗AI喺特定場景嘅不足。對於新手開發者或較小型嘅項目,AI工具可能仍然有顯著幫助,但對於經驗豐富嘅開發者同複雜代碼庫,企業同開發者需要更謹慎地評估AI嘅應用方式同效果。欲了解更多詳情,請瀏覽:InfoQ