根據最新報導,OpenAI的實驗性推理大型語言模型(LLM)在2025年國際數學奧林匹克(IMO)中取得重大突破,達到金牌水平嘅表現,標誌住人工智能喺數學推理領域嘅新里程碑。呢個成就唔單止展示咗AI喺解決複雜數學問題上嘅能力,仲突顯咗強化學習(reinforcement learning, RL)喺提升AI通用推理能力方面嘅潛力。OpenAI聲稱,佢哋嘅模型喺模擬IMO比賽環境下,喺兩場各4.5小時嘅考試中,唔用任何工具同網絡資源,只靠閱讀官方題目陳述同撰寫自然語言證明,最終喺六條題目中解決咗五條,攞到35/42分,達到金牌標準。
國際數學奧林匹克係全球最負盛名嘅數學比賽之一,每年吸引來自世界各地嘅頂尖高中生參加,考驗佢哋喺代數、幾何、數論同組合數學等方面嘅能力。OpenAI嘅模型喺呢個高難度競賽中表現出色,唔單止證明咗AI喺數學推理上嘅進步,仲顯示出佢喺長時間、創意性思考同複雜證明生成方面嘅潛力。相比起以往嘅數學基準,例如GSM8K(約0.1分鐘解決)、MATH基準(約1分鐘)同AIME(約10分鐘),IMO題目需要大約100分鐘嘅持續推理,難度顯著提高。
OpenAI強調,呢次成功並非依賴針對IMO嘅特定訓練,而係透過通用強化學習同測試時計算規模嘅提升實現。喺評估過程中,OpenAI請咗三位前IMO獎牌得主獨立評分模型提交嘅證明,並喺達成一致意見後確定分數。呢個嚴格嘅評估流程確保咗結果嘅可信度。值得一提嘅係,OpenAI嘅模型喺解決問題時,唔需要外部工具或特定領域知識,顯示出通用推理模型喺跨領域應用上嘅優勢。
同其他AI系統相比,OpenAI嘅模型表現出獨特嘅優勢。例如,Google DeepMind嘅AlphaGeometry 2喺幾何問題上表現出色,但喺組合數學等其他領域則有局限。OpenAI嘅模型則展現咗更全面嘅能力,喺代數、數論同幾何問題上均有出色表現。業界專家指出,呢個成就可能為AI喺科學研究、軟件開發同其他需要高階推理嘅領域帶來深遠影響。
不過,OpenAI亦提到,呢個金牌水平嘅模型係實驗性質,暫時唔會公開發布。佢哋計劃喺未來幾個月進一步優化模型,並預計即將推出嘅GPT-5可能會進一步提升AI喺數學同其他推理任務上嘅表現。呢次突破唔單止係技術上嘅勝利,仲為AI研究界同數學界帶來咗新嘅討論:AI會唔會喺唔遠嘅將來全面超越人類喺數學競賽中嘅表現?https://x.com/alexwei_/status/1946477742855532918