👥 Sihui Ji, Xi Chen, Xin Tao et al.
Computer Vision and Pattern Recognition
Video generation models nowadays are capable of generating visually realistic
videos, but often fail to adhere to physical laws, limiting their ability to
generate physically plausible videos and serv...
如今的視頻生成模型能夠生成視覺逼真的內容
視頻,但往往不遵守物理定律,限制了他們的能力
生成物理上合理的視頻並充當“世界模型”。致地址
本期,我們提出了 PhysMaster,它將物理知識捕獲為
指導視頻生成模型增強其性能的表示
物理意識。具體來說,PhysMaster是基於圖像到視頻任務
其中模型預計可以預測物理上合理的動態
輸入圖像。由於輸入圖像提供了物理先驗,例如相對
場景中物體的位置和潛在...
👥 Dominick Reilly, Manish Kumar Govind, Le Xue et al.
Computer Vision and Pattern Recognition
Large Vision-Language Models (VLMs) excel at general visual reasoning tasks
but exhibit sharp performance degradation when applied to novel domains with
substantial distribution shifts from pretrainin...
大型視覺語言模型 (VLM) 擅長一般視覺推理任務
但當應用於新領域時表現出急劇的性能下降
預訓練數據的分佈發生重大變化。現有域名
適應方法可以微調不同的 VLM 組件,但這通常會導致
在有限的特定領域特徵學習或先前的災難性遺忘中
能力。為了解決這些問題,我們引入了 Vision Contextualized
探測 (VisCoP),它通過一組緊湊的編碼器增強了 VLM 的視覺編碼器
可學習的視覺...
👥 Anton Simen, Carlos Flores-Garrigós, Murilo Henrique De Oliveira et al.
quant-ph
We introduce a Hamiltonian-based quantum feature extraction method that
generates complex features via the dynamics of $k$-local many-body spins
Hamiltonians, enhancing machine learning performance. C...
我們介紹了一種基於哈密頓量的量子特徵提取方法
通過 $k$ 局部多體自旋的動力學生成複雜的特徵
哈密頓量,提高機器學習性能。經典特徵向量
被嵌入到自旋玻璃哈密頓量中,其中兩個單變量
貢獻和高階相關性通過多體表示
互動。通過在 IBM 上合適的量子動力學下演化系統
具有 156 個量子位的數字量子處理器,數據被映射到
通過低維和期望值的高維特徵空間
高階可觀測量。這使我們能夠捕獲統計依賴性
用標...
👥 Apekshya Ghimire, Chandralekha Singh
physics.ed-ph
In this research, we investigated the impact of peer collaboration and
changes from individual to group performance of graduate students on the
Conceptual Survey of Electricity and Magnetism (CSEM) wi...
在這項研究中,我們調查了同行協作的影響和
研究生從個人到小組表現的變化
電和磁的概念調查(CSEM),沒有任何指導
導師。我們將知識建構定義為這樣一種情況:
小組正確回答了問題,但在個人管理中
小組作業前的調查,一名成員給出了正確答案,
其他人給出了錯誤的答案。我們發現有了明顯的改善
學生在同伴互動後的表現,其中大部分是
歸因於知識的建構。然而學生們卻寥寥無幾
共同構建知識的機會,因為幾乎沒有任何...
👥 David Gebauer, Anik Halder, Stella Seitz et al.
astro-ph.CO
We present $\texttt{SBi3PCF}$, a simulation-based inference (SBI) framework
for analysing a higher-order weak lensing statistic, the integrated 3-point
correlation function (i3PCF). Our approach forwa...
我們提出$\texttt{SBi3PCF}$,一個基於模擬的推理(SBI)框架
為了分析高階弱透鏡統計量,集成的 3 點
相關函數(i3PCF)。我們的方法對宇宙剪切力進行正演建模
場使用 $\texttt{CosmoGridV1}$ N 體模擬套件,包括
全面的系統效應,例如內在排列、重子
反饋、光度紅移不確定性、剪切校準偏差和形狀
噪音。使用它,我們生成了一組類似 DES Y3 的綜合測量
對...
👥 Xinchen Zhang, Xiaoying Zhang, Youbin Wu et al.
Computer Vision and Pattern Recognition
Artificial Intelligence
Computation and Language
We introduce Generative Universal Verifier, a novel concept and plugin
designed for next-generation multimodal reasoning in vision-language models and
unified multimodal models, providing the fundamen...
我們引入生成式通用驗證器,一個新穎的概念和插件
專為視覺語言模型中的下一代多模態推理而設計
統一的多模態模型,提供基礎的反射能力
以及在推理和生成過程中對視覺結果的細化。
這項工作做出了三個主要貢獻:(1)我們構建了 ViVerBench,一個
涵蓋 16 類關鍵任務的綜合基准進行評估
多模態推理中的視覺結果。結果表明現有的 VLM
在這些任務上始終表現不佳,凸顯了巨大的差距
來自人類水平的可靠視...
👥 Lawrence Dam, Omar Darwish
astro-ph.CO
Consistency relations of large-scale structure offer a unique and powerful
test of the weak equivalence principle (EP) on cosmological scales. If the EP
is violated, different tracers will undergo dif...
大規模結構的一致性關係提供了獨特而強大的
宇宙學尺度上的弱等效原理(EP)檢驗。如果EP
被違反,不同的示踪劑將經歷不同的加速度響應
到一個均勻的引力場,這種普遍性的喪失表現為
偶極子在壓縮極限下具有特徵 $1/K$ 尺度依賴性
雙譜。在這項工作中,我們證明這種違規行為是可以識別的
在局部互功率譜中具有特定的反對稱{調製}
不同的示踪劑。基於這一觀察,我們建議使用以下方法來測試 EP
二次估計器作...
👥 Xinhang Liu, Yuxi Xiao, Donny Y. Chen et al.
Computer Vision and Pattern Recognition
Effective spatio-temporal representation is fundamental to modeling,
understanding, and predicting dynamics in videos. The atomic unit of a video,
the pixel, traces a continuous 3D trajectory over tim...
有效的時空表示是建模的基礎,
理解和預測視頻中的動態。視頻的原子單位,
像素隨著時間的推移追踪連續的 3D 軌跡,作為
動力學的原始元素。基於這個原則,我們建議代表
任何視頻作為軌跡場:分配連續 3D 的密集映射
每幀中每個像素的時間軌跡函數。有了這個
表示,我們引入了 Trace Anything,一個可以預測的神經網絡
一次前饋傳遞中的整個軌跡場。具體來說,對於每個
每個幀中的像素,我們的模型...
👥 Alejandro Gil-García, C. S. Shahbazi
math.DG
Primary 53C27, Secondary 53C10, 53C50, 15A66, 15A75
We characterize, in every dimension and signature, the algebraic squares of
an irreducible complex spinor as a pair of exterior forms satisfying a
prescribed system of algebraic relations that we pres...
我們在每個維度和簽名中描述了代數平方
不可約复旋量作為一對滿足 a 的外部形式
我們用以下形式提出的規定的代數關係系統
基礎二次向量空間的幾何乘積。結果,我們
獲得不可約复旋量之間的一般對應關係
代數約束的外部形式,澄清了微妙的
旋量和外形式之間的關係並有助於
將旋量理解為幾何的平方根。我們使用這種形式主義
構造歐幾里德中不可約复旋量的平方
維度最多為六,並且還可以構造通用的正方形,可能
八個歐幾...
👥 Yiming Chen, Zekun Qi, Wenyao Zhang et al.
Computer Vision and Pattern Recognition
In this paper, we claim that 3D visual grounding is the cornerstone of
spatial reasoning and introduce the Grounded-Spatial Reasoner (GS-Reasoner) to
explore the effective spatial representations that...
在本文中,我們聲稱 3D 視覺基礎是
空間推理並引入 Grounded-Spatial Reasoner (GS-Reasoner)
探索彌合它們之間差距的有效空間表示。
現有的 3D LLM 缺乏統一的 3D 表示能力
聯合捕獲語義和幾何信息。這個不足是
表現為接地性能不佳或過度依賴
在外部模塊上,最終阻礙接地的無縫集成
和空間推理。為了解決這個問題,我們提出了一個簡單而有效的方法
雙路徑池化機...