OpenAI宣稱於IMO 2025獲得金牌表現

根據最新報導，OpenAI的實驗性推理大型語言模型（LLM）在2025年國際數學奧林匹克（IMO）中取得重大突破，達到金牌水平嘅表現，標誌住人工智能喺數學推理領域嘅新里程碑。呢個成就唔單止展示咗AI喺解決複雜數學問題上嘅能力，仲突顯咗強化學習（reinforcement learning, RL）喺提升AI通用推理能力方面嘅潛力。OpenAI聲稱，佢哋嘅模型喺模擬IMO比賽環境下，喺兩場各4.5小時嘅考試中，唔用任何工具同網絡資源，只靠閱讀官方題目陳述同撰寫自然語言證明，最終喺六條題目中解決咗五條，攞到35/42分，達到金牌標準。

國際數學奧林匹克係全球最負盛名嘅數學比賽之一，每年吸引來自世界各地嘅頂尖高中生參加，考驗佢哋喺代數、幾何、數論同組合數學等方面嘅能力。OpenAI嘅模型喺呢個高難度競賽中表現出色，唔單止證明咗AI喺數學推理上嘅進步，仲顯示出佢喺長時間、創意性思考同複雜證明生成方面嘅潛力。相比起以往嘅數學基準，例如GSM8K（約0.1分鐘解決）、MATH基準（約1分鐘）同AIME（約10分鐘），IMO題目需要大約100分鐘嘅持續推理，難度顯著提高。

OpenAI強調，呢次成功並非依賴針對IMO嘅特定訓練，而係透過通用強化學習同測試時計算規模嘅提升實現。喺評估過程中，OpenAI請咗三位前IMO獎牌得主獨立評分模型提交嘅證明，並喺達成一致意見後確定分數。呢個嚴格嘅評估流程確保咗結果嘅可信度。值得一提嘅係，OpenAI嘅模型喺解決問題時，唔需要外部工具或特定領域知識，顯示出通用推理模型喺跨領域應用上嘅優勢。

同其他AI系統相比，OpenAI嘅模型表現出獨特嘅優勢。例如，Google DeepMind嘅AlphaGeometry 2喺幾何問題上表現出色，但喺組合數學等其他領域則有局限。OpenAI嘅模型則展現咗更全面嘅能力，喺代數、數論同幾何問題上均有出色表現。業界專家指出，呢個成就可能為AI喺科學研究、軟件開發同其他需要高階推理嘅領域帶來深遠影響。

不過，OpenAI亦提到，呢個金牌水平嘅模型係實驗性質，暫時唔會公開發布。佢哋計劃喺未來幾個月進一步優化模型，並預計即將推出嘅GPT-5可能會進一步提升AI喺數學同其他推理任務上嘅表現。呢次突破唔單止係技術上嘅勝利，仲為AI研究界同數學界帶來咗新嘅討論：AI會唔會喺唔遠嘅將來全面超越人類喺數學競賽中嘅表現？https://x.com/alexwei_/status/1946477742855532918

Post Views: 1,139

OpenAI宣稱於IMO 2025獲得金牌表現

Leave a Comment Cancel Reply