Roblox 最近宣佈開源其名為 Sentinel 嘅人工智能系統,呢個系統專為檢測可能危害兒童嘅對話而設計,特別係針對如網絡誘拐等行為。據 InfoQ 報導,Sentinel 係一個基於 Python 嘅開源庫,採用對比學習技術去處理高度不平衡嘅數據集,呢啲數據集往往對傳統分類器構成挑戰。Roblox 平台每日有超過 1.11 億活躍用戶,產生約 61 億條聊天訊息同 110 萬小時嘅語音通訊,當中絕大部分都係普通嘅日常對話,但少數不良分子會試圖繞過系統嘅安全措施,進行潛在有害嘅行為。
Sentinel 嘅運作方式係通過分析用戶近期的訊息,並根據嵌入相似性進行評分。系統會比較每條訊息同已知嘅有害訊息同普通訊息嘅相似度,計算出一個有害類別同普通類別相似度嘅比率。之後,Sentinel 會聚合同一來源嘅近期訊息分數,計算出偏度(skewness),以識別可疑模式嘅存在。正偏度表示內容多數係普通嘅,但有足夠嘅有害類別相似性,形成右偏分佈。Roblox 指出,呢個方法對不同活躍度嘅來源具有強大嘅適應性,因為佢唔受觀察次數變化嘅影響。喺 2025 年上半年,Sentinel 已經幫助平台提交大約 1,200 份潛在兒童剝削報告畀美國國家失蹤與被剝削兒童中心(National Center for Missing and Exploited Children)。
同傳統基於規則或關鍵詞嘅過濾系統唔同,Sentinel 能夠喺上下文層面分析對話,識別看似無害但實際上可能隱藏危險意圖嘅訊息。例如,單獨一句「你住喺邊度?」可能看似普通,但喺一連串對話中可能顯示出誘拐意圖。Sentinel 會捕捉一分鐘嘅聊天快照,每日處理大約 60 億條訊息,通過比較同兩個索引(一個包含無害訊息,另一個包含違反兒童安全政策嘅訊息)嘅相似性,來檢測潛在危害。Roblox 嘅工程副總裁 Naren Koneru 表示,呢個索引會隨着發現更多不良行為者而不斷更新,確保系統嘅檢測能力持續提升。
除咗技術層面,Sentinel 仲依賴人類專家嘅參與。被系統標記為潛在違規嘅案例會由受過專業訓練嘅分析師(通常係前 CIA 或 FBI 探員)進行審查。呢啲分析師嘅決定會形成反饋循環,幫助系統持續改進其訓練數據同索引。Roblox 強調,Sentinel 唔單止適用於其自家平台,仲可以應用於其他需要高召回率同上下文分析嘅分類問題,例如檢測罕見但高風險嘅內容。通過開源 Sentinel,Roblox 希望同其他平台同業界合作,共同構建一個更安全嘅網絡環境。
喺 2025 年上半年,Sentinel 嘅主動檢測能力已經證明其價值,35% 嘅檢測案例係喺用戶提交濫用報告之前被識別出嚟。呢啲早期檢測能力幫助 Roblox 喺不良行為者嘅訊息仲處於微妙階段時就採取行動,大大提升咗平台嘅安全性。隨着開源計劃嘅推進,Roblox 呼籲業界積極參與,共同完善呢個系統,為全球嘅年輕用戶提供更安全嘅線上體驗。