BLIP3o-NEXT：原生圖像生成的下一個前沿

Salesforce Research 嘅研究員最近發表咗 BLIP3o-NEXT，係一個完全開源嘅基礎模型，屬於 BLIP3o 系列，專門推進原生圖像生成同編輯。

呢個模型採用咗 autoregressive 加 diffusion 嘅混合架構，先用 autoregressive 模型根據文字提示同參考圖像生成離散圖像 token，之後用 diffusion 模型利用呢啲 token 嘅隱藏狀態生成高質素圖像。呢種設計結合咗 autoregressive 模型嘅推理能力同 diffusion 模型嘅細節渲染能力。

研究團隊發現咗四個關鍵洞見：大部分架構選擇性能差唔多，只要有效擴展同快速推斷就得；強化學習（RL）可以進一步提升原生圖像生成；圖像編輯仍然係挑戰，但透過後訓練同數據引擎可以大大改善指令跟從同一致性；數據質素同規模仍然係決定模型性能上限嘅關鍵因素。

BLIP3o-NEXT 喺多個文字轉圖像同圖像編輯 benchmark 上表現出色，勝過現有模型，包括 GenEval、ImgEdit 等。模型總參數約 3B，預訓練用咗 BLIP3o-Pretrain 數據集，指令調優用咗 BLIP3o-60K。

團隊仲開放咗模型權重、數據集、代碼同評估管道，歡迎研究社區使用。閱讀全文

a fully open-source foundation model from the BLIP3o series developed by researchers affiliated with Salesforce AI Research and others

Post Views: 887

BLIP3o-NEXT：原生圖像生成的下一個前沿

Leave a Comment Cancel Reply