![]()
Salesforce Research 嘅研究員最近發表咗 BLIP3o-NEXT,係一個完全開源嘅基礎模型,屬於 BLIP3o 系列,專門推進原生圖像生成同編輯。
呢個模型採用咗 autoregressive 加 diffusion 嘅混合架構,先用 autoregressive 模型根據文字提示同參考圖像生成離散圖像 token,之後用 diffusion 模型利用呢啲 token 嘅隱藏狀態生成高質素圖像。呢種設計結合咗 autoregressive 模型嘅推理能力同 diffusion 模型嘅細節渲染能力。
研究團隊發現咗四個關鍵洞見:大部分架構選擇性能差唔多,只要有效擴展同快速推斷就得;強化學習(RL)可以進一步提升原生圖像生成;圖像編輯仍然係挑戰,但透過後訓練同數據引擎可以大大改善指令跟從同一致性;數據質素同規模仍然係決定模型性能上限嘅關鍵因素。
BLIP3o-NEXT 喺多個文字轉圖像同圖像編輯 benchmark 上表現出色,勝過現有模型,包括 GenEval、ImgEdit 等。模型總參數約 3B,預訓練用咗 BLIP3o-Pretrain 數據集,指令調優用咗 BLIP3o-60K。
團隊仲開放咗模型權重、數據集、代碼同評估管道,歡迎研究社區使用。閱讀全文
a fully open-source foundation model from the BLIP3o series developed by researchers affiliated with Salesforce AI Research and others