🔬 翻譯論文圖書館

探索來自 arXiv 的前沿研究論文

2037 翻譯論文數
EN
中文
用於免訓練多視圖圖像編輯的耦合擴散採樣
📅 2025-10-16
🆔 2510.14981
👥 Hadi Alzayer, Yunzhi Zhang, Chen Geng et al.
cs.CV cs.AI
我們提出了一種推理時間擴散採樣方法來執行多視圖 使用預先訓練的 2D 圖像編輯模型進行一致的圖像編輯。這些 模型可以獨立地對一組圖像中的每個圖像進行高質量的編輯 3D 場景或物體的多視圖圖像,但它們不保持一致性 跨視圖。現有的方法通常通過優化來解決這個問題 顯式 3D 表示,但它們經歷了漫長的優化 稀疏視圖設置下的過程和不穩定。我們提出隱式 3D 通過將生成的 2D 圖像序列約束為正則化方法 堅持...
🔗 arXiv
從像素到文字——走向原生視覺語言原語 規模
📅 2025-10-16
🆔 2510.14979
👥 Haiwen Diao, Mingxuan Li, Silei Wu et al.
cs.CV cs.AI
原生視覺語言模型 (VLM) 的大廈已成為新興的 典型模塊化 VLM 的競爭者,由不斷發展的模型架構和 培訓範式。然而,兩片揮之不去的雲層給它廣泛的區域投下了陰影。 探索和推廣:(-) 原生 VLM 受到哪些基本約束 除了模塊化之外,這些障礙可以在多大程度上克服?(-) 如何使原生 VLM 的研究更容易獲得和民主化,從而 加速該領域的進展。在本文中,我們闡明了這些挑戰 並概述了構建本機 VLM 的...
🔗 arXiv
組合機器的代理設計
📅 2025-10-16
🆔 2510.14980
👥 Wenqian Zhang, Weiyang Liu, Zhen Liu
cs.AI cs.CL cs.CV cs.GR cs.LG
複雜機器的設計既是人類智能的標誌 和工程實踐的基礎。鑑於最近在大 語言模型(法學碩士),我們詢問他們是否也可以學習創建。我們 通過組合機器設計的視角來解決這個問題:一項任務 其中機器由標準化組件組裝而成,以滿足功能 諸如在模擬物理環境中的運動或操縱之類的需求。到 為了支持這項調查,我們引入了 BesiegeField,這是一個基於 機器建造遊戲 Besiege,可以實現基於零件的建造、物理 模擬和...
🔗 arXiv
學習沒有圖像編輯對的圖像編輯模型
📅 2025-10-16
🆔 2510.14978
👥 Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao et al.
cs.CV cs.LG
最近的圖像編輯模型已經取得了令人印象深刻的結果,同時遵循 自然語言編輯指令,但它們依賴於監督微調 具有輸入目標對的大型數據集。這是一個關鍵的瓶頸,因為 這種自然發生的配對很難大規模管理。當前的解決方法 使用綜合訓練對,利用零樣本能力 現有型號。然而,這會傳播並放大偽影 將預訓練模型轉化為最終訓練模型。在這項工作中,我們提出了一種新的 完全不需要配對數據的訓練範例。我們的 該方法通過在過程中展開它來...
🔗 arXiv
Ponimator:為多功能人機展開互動姿勢 交互動畫
📅 2025-10-16
🆔 2510.14976
👥 Shaowei Liu, Chuan Guo, Bing Zhou et al.
cs.CV cs.GR cs.RO
近距離的人與人互動姿勢傳達丰富的情境 有關交互動態的信息。有了這樣的姿勢,人類就可以 直觀地推斷上下文並預測過去和未來可能的動態, 借鑒人類行為的強大先驗。受到這一觀察的啟發,我們 提出 Ponimator,一個基於近端交互姿勢的簡單框架 用於多功能交互動畫。我們的訓練數據包括 近距離接觸的兩人姿勢及其周圍的時間背景 動作捕捉交互數據集。利用交互式姿勢先驗, Ponimator 採用兩種條件擴散模...
🔗 arXiv
Terra:具有潛在點的可探索原生 3D 世界模型
📅 2025-10-16
🆔 2510.14977
👥 Yuanhui Huang, Weiliang Chen, Wenzhao Zheng et al.
cs.CV cs.AI cs.LG
世界模型越來越受到人們對綜合建模的關注 現實世界。然而,大多數現有方法仍然依賴於像素對齊 表徵作為世界演化的基礎,忽略了固有的 3D 物理世界的本質。這可能會破壞 3D 一致性 降低世界模型的建模效率。在本文中,我們提出 Terra,一個原生 3D 世界模型,代表並生成可探索的 內在 3D 潛在空間中的環境。具體來說,我們提出了一部小說 點到高斯變分自動編碼器 (P2G-VAE),將 3D 輸入編...
🔗 arXiv
WithAnyone:實現可控且 ID 一致的圖像生成
📅 2025-10-16
🆔 2510.14975
👥 Hengyuan Xu, Wei Cheng, Peng Xing et al.
cs.CV cs.AI
身份一致的生成已成為文本到圖像的重要焦點 研究,最近的模型在生成圖像方面取得了顯著的成功 與參考身份對齊。然而,大規模配對的稀缺 包含同一個人的多個圖像的數據集最有影響力 採用基於重建的培訓的方法。這種依賴往往會導致 我們稱之為複制粘貼的故障模式,其中模型直接複製 參考人臉而不是在自然變化中保持同一性 姿勢、表情或燈光。這種過度相似性破壞了可控性 並限制了生成的表達能力。為了解決這些限制,我們 (...
🔗 arXiv
pi-Flow:通過仿蒸餾進行基於策略的少步生成
📅 2025-10-16
🆔 2510.14974
👥 Hansheng Chen, Kai Zhang, Hao Tan et al.
cs.LG cs.AI cs.CV
少步擴散或基於流的生成模型通常會提取 將預測速度的老師轉變為預測通往捷徑的學生 去噪數據。這種格式不匹配導致了複雜的蒸餾程序 往往會面臨質量與多樣性之間的權衡。為了解決這個問題,我們 提出基於策略的流量模型($\pi$-Flow)。$\pi$-Flow修改輸出 學生流模型的一層,用於在一個時間步預測無網絡策略。 然後,該策略在未來的子步驟中產生動態流速 開銷可以忽略不計,從而能夠快速、準確地對這些...
🔗 arXiv
對於擴散 LLM 中的 KV 緩存,只需關注即可
📅 2025-10-16
🆔 2510.14973
👥 Quan Nguyen-Tri, Mukul Ranjan, Zhiqiang Shen
cs.CL cs.AI cs.LG
這項工作研究瞭如何自適應地重新計算鍵值(KV)緩存 擴散大語言模型 (DLM) 以最大限度地提高預測準確性,同時 最大限度地減少解碼延遲。先前方法的解碼器重新計算所有 QKV 儘管 KV 狀態變化不大,但每個去噪步驟和層的標記 跨越大多數台階,特別是在淺層,導致大量 冗餘。我們做出三個觀察:(1) 遙遠的 ${\bf MASK}$ 標記 主要充當長度偏差,並且可以在活動範圍之外按塊進行緩存 預測窗...
🔗 arXiv
TokDrift:當法學碩士用子詞說話而代碼用語法說話時
📅 2025-10-16
🆔 2510.14972
👥 Yinxi Li, Yuntian Deng, Pengyu Nie
cs.CL cs.AI cs.LG cs.PL cs.SE
代碼的大型語言模型 (LLM) 依賴於子詞分詞器,例如 字節對編碼(BPE),從混合自然語言文本中學習 編程語言代碼但由統計數據而不是語法驅動。作為一個 結果,語義相同的代碼片段可以以不同的方式標記化 取決於表面因素,例如空格或標識符命名。到 為了衡量這種不一致的影響,我們引入了 TokDrift,一個框架 應用保留語義的重寫規則來創建代碼變體 僅在標記化方面有所不同。Across nine co...
🔗 arXiv


Deprecated: trim(): Passing null to parameter #1 ($string) of type string is deprecated in /home/hkprog.org/www/wp-content/plugins/simple-lightbox/includes/class.utilities.php on line 545