AI編碼工具在勁嘅開發者面前表現不佳

一項由非營利AI研究組織METR進行嘅最新研究，揭示咗AI編碼工具喺實際應用中嘅局限性，挑戰咗坊間認為AI可以大幅提升軟件開發效率嘅觀點。呢項研究喺2025年2月至6月進行，係一個隨機對照試驗（RCT），涉及16位經驗豐富嘅開源軟件開發者，佢哋喺熟悉嘅大型代碼庫上完成246項真實任務。研究結果令人意外：使用AI編碼工具（例如Cursor Pro同Claude 3.5/3.7 Sonnet）嘅開發者，完成任務嘅時間比唔用AI嘅情況慢咗19%。

喺研究開始前，開發者預測AI工具會將任務完成時間縮短24%，但實際結果同預期背道而馳。研究發現，開發者喺使用AI工具時，需要花更多時間喺編寫提示（prompting）同審查AI生成嘅代碼，而唔係直接編碼。METR指出，開發者接受AI生成建議嘅比例少於44%，而且75%嘅開發者表示會逐行檢查AI輸出嘅代碼，56%嘅情況下需要對AI生成嘅代碼進行大幅修改。呢啲額外嘅審查同修改工作，導致整體效率下降，拖慢咗開發進度。

點解AI編碼工具會令效率降低？研究提出咗幾個可能原因。首先，呢項研究涉及嘅代碼庫規模龐大，平均超過100萬行代碼，包含複雜嘅依賴關係同嚴格嘅風格指南。參與嘅開發者平均有4.9年喺相關代碼庫嘅經驗，佢哋對項目嘅隱性知識（tacit knowledge）同上下文理解遠超AI工具嘅能力。AI喺理解大型代碼庫嘅上下文同遵循特定項目規範方面表現不足，生成嘅代碼經常需要調整以符合標準。其次，AI生成嘅代碼可靠性偏低，開發者需要額外時間去測試同修正錯誤，增加咗工作負擔。METR仲提到，部分開發者喺「AI允許」嘅任務中過度依賴或實驗AI工具，甚至喺唔必要嘅情況下使用，進一步影響效率。

值得一提嘅係，研究參與者中只有56%嘅開發者有使用Cursor嘅經驗，雖然93%嘅人曾經用過其他網頁版大語言模型（LLM）。研究開始前，所有參與者都接受咗Cursor嘅基本培訓，但即使喺研究期間逐漸熟悉工具，效率都無顯著提升。METR研究員強調，呢啲結果並唔代表AI編碼工具完全無用，而係反映咗喺特定場景下（例如大型、成熟嘅開源項目同經驗豐富嘅開發者），AI工具目前嘅局限性。佢哋亦指出，AI技術進步迅速，未來可能會克服呢啲問題。METR嘅其他研究顯示，AI能夠處理嘅軟件任務範圍每7個月翻倍，意味住未來嘅AI工具可能會表現更好。

研究仲揭示咗一個重要嘅「認知差距」：開發者普遍認為AI工具幫佢哋加快咗20%嘅工作速度，但實際數據顯示效率反而下降。呢種誤解唔單止存在於開發者之間，甚至經濟學家同機器學習專家都高估咗AI嘅影響，分別預測AI會提升39%同38%嘅生產力。Greyhound Research嘅首席分析師Sanchit Vir Gogia警告，企业可能會將開發者嘅主觀滿意度同實際生產力混淆，忽略咗AI整合到現實工作流程中嘅摩擦成本，例如下游重工、代碼變動同同行評審嘅額外時間。呢項研究提醒業界，必須以更嚴謹嘅方式評估AI工具嘅實際影響，而唔係單靠主觀感覺或廠商宣傳。

總結嚟講，METR嘅研究唔係否定AI編碼工具嘅潛力，而係喺2025年初嘅技術水平下，揭示咗AI喺特定場景嘅不足。對於新手開發者或較小型嘅項目，AI工具可能仍然有顯著幫助，但對於經驗豐富嘅開發者同複雜代碼庫，企業同開發者需要更謹慎地評估AI嘅應用方式同效果。欲了解更多詳情，請瀏覽：InfoQ

Post Views: 639