Jan, 2024

多尺度二维时间地图扩散模型用于自然语言视频定位

TL;DR自然语言视频定位(NLVL)是视频理解中复杂但关键的任务之一,本研究提出了一种旨在解决全局捕获视频数据时空动态的 NLVL 新方法,通过条件去噪扩散过程直接生成全局 2D 时空图。多尺度技术和创新的扩散解码器克服了 2D 时空图的稀疏性和不连续性,有效地捕捉了查询和视频数据在不同时间尺度下的交互作用。实验证明了我们设计的有效性。