從文字到世界:空間智能是AI的下一個前沿

Back
Category : News

文章講起Alan Turing喺1950年問過機器可唔可以思考,之後AI從基本計算發展到而家嘅大型語言模型(LLMs),佢哋好勁處理抽象知識,但係欠缺喺物理世界嘅 grounding。

空間智能係AI下一個前沿,可以改變故事講述、創意、機械人同科學發現。作者李飛飛,佢嘅職業生涯—建ImageNet、領導Stanford視覺學習實驗室、同埋共同創辦World Labs—都係追求視覺同空間智能。

空間智能係人類認知嘅基礎,從進化中基本感知同行動循環開始。佢幫助日常任務,好似泊車、接物件、穿梭人群或者唔望住倒咖啡。佢延伸到極端情況,好似消防員喺倒塌大廈導航,同小朋友喺語言前透過玩耍學習。空間智能支撐想像同創意,從洞穴畫到現代媒體、模擬同工業應用,好似工業設計同機械人訓練。

歷史例子顯示佢嘅影響:Eratosthenes用影子計算地球圓周,Hargreaves嘅紡紗機提高紡織生產力,Watson同Crick建DNA模型。佢為感知、推理、計劃同互動提供支架,即使喺抽象思考。

而家AI嘅限制:LLMs同多模態LLMs(MLLMs)喺文字、代碼、圖像同短片好勁,但係喺人類水平空間任務失敗,好似估計距離、旋轉物件、導航迷宮或者預測物理。AI生成影片好快失去連貫性,模型仍然同物理現實脫節,阻礙喺駕駛、機械人、沉浸式體驗同材料科學同醫學發現嘅應用。哲學家Wittgenstein嘅想法,語言限制世界,適用喺AI,空間智能超越文字,連接想像、感知同行動。

文章概述建空間智能AI透過”world models”,生成模型超越LLMs喺理解、推理、生成同複雜世界互動。World Labs喺2024年初創辦,專注呢個作為下十年挑戰。World models需要三個能力:1) 生成—從指示創造一致模擬世界(語義、感知、幾何、物理、動態),輸出同過去狀態連結;2) 多模態—處理多樣輸入好似圖像、影片、深度圖、文字、手勢、行動,同生成完整世界狀態;3) 互動—基於行動或者目標輸出下一個狀態,可能預測行動,遵守物理、語義同動態。

挑戰包括調和複雜規則(例如重力、原子結構)喺高維度,比語言需要新方法。World Labs研究主題涵蓋反映幾何同物理嘅通用任務函數、大規模訓練數據從圖像、影片、合成來源同模態好似深度同觸覺;新架構好似3D/4D tokenization同RTFM用於實時生成帶空間記憶。進展包括Marble,一個多模態世界模型生成同維持3D環境用於創意,即將公開。

應用強調增強人類:喺創意,Marble賦權電影製作人、遊戲設計師、建築師快速3D世界建構、敘事體驗、設計迭代同沉浸VR/XR。喺機械人,world models透過模擬擴大學習,啟用同伴/合作者對人類目標有同理心,同支持多樣化實施好似納米機械人。長遠影響包括科學(模擬實驗、假設測試喺不可及環境)、醫療(藥物發現、診斷、監測、機械人協助)同教育(沉浸式實體學習、技能練習喺模擬)。

結論重申Turing嘅啟發,將空間智能視為完成AI用於夥伴關係喺挑戰好似疾病理解、故事講述同支持。佢呼籲AI生態系統集體努力利用呢個用於賦權生活,最後邀請加入World Labs。https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence