人工智能編碼工具未必能提升所有開發者效率

Back
Category : News

一項由非營利人工智能研究組織 Model Evaluation & Threat Research (METR) 進行的最新研究顯示,人工智能編碼工具(如 Cursor 和 GitHub Copilot)可能並非如業界所宣傳般,能普遍提升所有軟件開發者的工作效率。研究針對16名經驗豐富的開源軟件開發者進行了一項隨機對照試驗(RCT),讓他們在自己長期貢獻的大型代碼庫上完成246項真實任務。這些任務包括修復錯誤、開發新功能和代碼重構,涵蓋了日常軟件開發中的常見工作。研究將任務隨機分為“允許使用人工智能”和“禁止使用人工智能”兩組,測試對象主要使用配備Claude 3.5或3.7 Sonnet的Cursor Pro作為人工智能工具。

研究結果令人震驚:在使用人工智能工具的情況下,開發者完成任務的時間平均增加了19%,而不是預期的加快。參與者在研究開始前普遍預測人工智能會讓他們的任務完成時間縮短24%,甚至在完成任務後,他們仍認為人工智能讓他們快了20%。這種認知與實際表現之間的巨大差距,顯示出開發者對人工智能工具的樂觀期望與現實之間存在顯著脫節。METR的研究者指出,造成這種減速的可能原因包括:開發者在編寫精確提示(prompt)以及等待人工智能回應時花費了過多時間;人工智能工具在處理大型、複雜代碼庫時表現不佳,難以理解項目中的隱性上下文和依賴關係;此外,開發者僅接受了不到44%的人工智能生成代碼建議,且有56%的參與者表示需要對人工智能輸出的代碼進行大幅修改。

呢項研究真是一個大發現,話晒人工智能編碼工具好似 Cursor 同 GitHub Copilot,係業界吹捧得天花亂墜,話可以幫開發者快手寫代碼、修 bug 同做測試,仲會話可以大幅提升效率。但點知 METR 搵咗16個有豐富經驗嘅開源開發者,畀佢哋喺自己好熟嘅大型代碼庫上面做246個真實任務,點知結果係用人工智能嘅時候,佢哋完成任務嘅時間唔單止冇快,反而仲慢咗19%!開發者喺研究之前仲好有信心,覺得人工智能會幫佢哋慳24%時間,做到任務後都仲覺得快咗20%,但實際數據就話完全相反,真是一個大反差!研究話,慢咗嘅原因可能係開發者花咗太多時間喺度寫 prompt 同等人工智能回應,仲有就係人工智能喺大而複雜嘅代碼庫入面好似有啲力不從心,唔太明白項目嘅背景同依賴關係。加上,開發者只接受咗唔夠44%嘅人工智能代碼建議,56%嘅人仲話要大幅改動人工智能畀嘅代碼,真係好麻煩!

不過,研究亦有啲例外嘅情況。例如,有一位名叫 Quentin Anthony 嘅開發者,喺使用人工智能時成功將任務完成時間縮短咗38%,成為研究中少數的正面案例。他認為,開發者將人工智能視為“魔法子彈”嘅心態,係導致效率下降嘅原因之一。佢提到,人工智能喺生成測試代碼時表現較好,但喺低層次系統工作(如GPU內核編程或同步邏輯)上就顯得不足。METR嘅研究者強調,呢啲結果並唔代表人工智能編碼工具完全無用。喺其他場景,例如新手開發者或較小型嘅項目,人工智能可能真會有正面嘅影響。佢哋亦提到,隨住人工智能技術進步,未來可能會改善喺大型代碼庫中嘅表現。

呢項研究仲提到一個有趣嘅觀點,就係開發者嘅自我認知同實際表現有好大落差。雖然佢哋覺得人工智能幫咗忙,但數據顯示佢哋實際上慢咗。呢個現象同 Google 2024年嘅 DevOps 報告有啲相似,報告話75%嘅開發者覺得用人工智能工具會更有效率,但數據顯示每增加25%嘅人工智能使用率,交付速度反而會下降1.5%,系統穩定性亦會跌7.2%。仲有39%嘅受訪者話對人工智能生成嘅代碼信任度好低。呢啲發現提醒我哋,單靠問卷或主觀感覺去評估人工智能嘅影響可能唔可靠,需要更嚴謹嘅實證研究。總括而言,人工智能編碼工具喺特定場景下可能真會幫到忙,但對於經驗豐富嘅開發者嚟講,特別係喺佢哋好熟嘅大型代碼庫入面,人工智能可能仲係一個雙刃劍,需要小心使用同持續改進。想了解更多,可以去呢個網址:https://www.techcrunch.com/2025/07/11/ai-coding-tools-may-not-speed-up-every-developer-study-shows