Research – 香港編程學會

用於免訓練多視圖圖像編輯的耦合擴散採樣

📅 2025-10-16

🆔 2510.14981

👥 Hadi Alzayer, Yunzhi Zhang, Chen Geng et al.

cs.CV cs.AI

我們提出了一種推理時間擴散採樣方法來執行多視圖使用預先訓練的 2D 圖像編輯模型進行一致的圖像編輯。這些模型可以獨立地對一組圖像中的每個圖像進行高質量的編輯 3D 場景或物體的多視圖圖像，但它們不保持一致性跨視圖。現有的方法通常通過優化來解決這個問題顯式 3D 表示，但它們經歷了漫長的優化稀疏視圖設置下的過程和不穩定。我們提出隱式 3D 通過將生成的 2D 圖像序列約束為正則化方法堅持...

🔗 arXiv

從像素到文字——走向原生視覺語言原語規模

📅 2025-10-16

🆔 2510.14979

👥 Haiwen Diao, Mingxuan Li, Silei Wu et al.

cs.CV cs.AI

原生視覺語言模型 (VLM) 的大廈已成為新興的典型模塊化 VLM 的競爭者，由不斷發展的模型架構和培訓範式。然而，兩片揮之不去的雲層給它廣泛的區域投下了陰影。探索和推廣：(-) 原生 VLM 受到哪些基本約束除了模塊化之外，這些障礙可以在多大程度上克服？(-) 如何使原生 VLM 的研究更容易獲得和民主化，從而加速該領域的進展。在本文中，我們闡明了這些挑戰並概述了構建本機 VLM 的...

🔗 arXiv

組合機器的代理設計

📅 2025-10-16

🆔 2510.14980

👥 Wenqian Zhang, Weiyang Liu, Zhen Liu

cs.AI cs.CL cs.CV cs.GR cs.LG

複雜機器的設計既是人類智能的標誌和工程實踐的基礎。鑑於最近在大語言模型（法學碩士），我們詢問他們是否也可以學習創建。我們通過組合機器設計的視角來解決這個問題：一項任務其中機器由標準化組件組裝而成，以滿足功能諸如在模擬物理環境中的運動或操縱之類的需求。到為了支持這項調查，我們引入了 BesiegeField，這是一個基於機器建造遊戲 Besiege，可以實現基於零件的建造、物理模擬和...

🔗 arXiv

學習沒有圖像編輯對的圖像編輯模型

📅 2025-10-16

🆔 2510.14978

👥 Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao et al.

cs.CV cs.LG

最近的圖像編輯模型已經取得了令人印象深刻的結果，同時遵循自然語言編輯指令，但它們依賴於監督微調具有輸入目標對的大型數據集。這是一個關鍵的瓶頸，因為這種自然發生的配對很難大規模管理。當前的解決方法使用綜合訓練對，利用零樣本能力現有型號。然而，這會傳播並放大偽影將預訓練模型轉化為最終訓練模型。在這項工作中，我們提出了一種新的完全不需要配對數據的訓練範例。我們的該方法通過在過程中展開它來...

🔗 arXiv

Ponimator：為多功能人機展開互動姿勢交互動畫

📅 2025-10-16

🆔 2510.14976

👥 Shaowei Liu, Chuan Guo, Bing Zhou et al.

cs.CV cs.GR cs.RO

近距離的人與人互動姿勢傳達丰富的情境有關交互動態的信息。有了這樣的姿勢，人類就可以直觀地推斷上下文並預測過去和未來可能的動態，借鑒人類行為的強大先驗。受到這一觀察的啟發，我們提出 Ponimator，一個基於近端交互姿勢的簡單框架用於多功能交互動畫。我們的訓練數據包括近距離接觸的兩人姿勢及其周圍的時間背景動作捕捉交互數據集。利用交互式姿勢先驗， Ponimator 採用兩種條件擴散模...

🔗 arXiv

Terra：具有潛在點的可探索原生 3D 世界模型

📅 2025-10-16

🆔 2510.14977

👥 Yuanhui Huang, Weiliang Chen, Wenzhao Zheng et al.

cs.CV cs.AI cs.LG

世界模型越來越受到人們對綜合建模的關注現實世界。然而，大多數現有方法仍然依賴於像素對齊表徵作為世界演化的基礎，忽略了固有的 3D 物理世界的本質。這可能會破壞 3D 一致性降低世界模型的建模效率。在本文中，我們提出 Terra，一個原生 3D 世界模型，代表並生成可探索的內在 3D 潛在空間中的環境。具體來說，我們提出了一部小說點到高斯變分自動編碼器 (P2G-VAE)，將 3D 輸入編...

🔗 arXiv

WithAnyone：實現可控且 ID 一致的圖像生成

📅 2025-10-16

🆔 2510.14975

👥 Hengyuan Xu, Wei Cheng, Peng Xing et al.

cs.CV cs.AI

身份一致的生成已成為文本到圖像的重要焦點研究，最近的模型在生成圖像方面取得了顯著的成功與參考身份對齊。然而，大規模配對的稀缺包含同一個人的多個圖像的數據集最有影響力採用基於重建的培訓的方法。這種依賴往往會導致我們稱之為複制粘貼的故障模式，其中模型直接複製參考人臉而不是在自然變化中保持同一性姿勢、表情或燈光。這種過度相似性破壞了可控性並限制了生成的表達能力。為了解決這些限制，我們 (...

🔗 arXiv

pi-Flow：通過仿蒸餾進行基於策略的少步生成

📅 2025-10-16

🆔 2510.14974

👥 Hansheng Chen, Kai Zhang, Hao Tan et al.

cs.LG cs.AI cs.CV

少步擴散或基於流的生成模型通常會提取將預測速度的老師轉變為預測通往捷徑的學生去噪數據。這種格式不匹配導致了複雜的蒸餾程序往往會面臨質量與多樣性之間的權衡。為了解決這個問題，我們提出基於策略的流量模型（$\pi$-Flow）。$\pi$-Flow修改輸出學生流模型的一層，用於在一個時間步預測無網絡策略。然後，該策略在未來的子步驟中產生動態流速開銷可以忽略不計，從而能夠快速、準確地對這些...

🔗 arXiv

對於擴散 LLM 中的 KV 緩存，只需關注即可

📅 2025-10-16

🆔 2510.14973

👥 Quan Nguyen-Tri, Mukul Ranjan, Zhiqiang Shen

cs.CL cs.AI cs.LG

這項工作研究瞭如何自適應地重新計算鍵值（KV）緩存擴散大語言模型 (DLM) 以最大限度地提高預測準確性，同時最大限度地減少解碼延遲。先前方法的解碼器重新計算所有 QKV 儘管 KV 狀態變化不大，但每個去噪步驟和層的標記跨越大多數台階，特別是在淺層，導致大量冗餘。我們做出三個觀察：(1) 遙遠的 ${\bf MASK}$ 標記主要充當長度偏差，並且可以在活動範圍之外按塊進行緩存預測窗...

🔗 arXiv

TokDrift：當法學碩士用子詞說話而代碼用語法說話時

📅 2025-10-16

🆔 2510.14972

👥 Yinxi Li, Yuntian Deng, Pengyu Nie

cs.CL cs.AI cs.LG cs.PL cs.SE

代碼的大型語言模型 (LLM) 依賴於子詞分詞器，例如字節對編碼（BPE），從混合自然語言文本中學習編程語言代碼但由統計數據而不是語法驅動。作為一個結果，語義相同的代碼片段可以以不同的方式標記化取決於表面因素，例如空格或標識符命名。到為了衡量這種不一致的影響，我們引入了 TokDrift，一個框架應用保留語義的重寫規則來創建代碼變體僅在標記化方面有所不同。Across nine co...

🔗 arXiv

🔬 翻譯論文圖書館

📈 Research Trends Analysis

No papers found