该研究提出了一种名为 DiffusionVMR 的提议无关框架,通过将视频时刻检索重新构想为去噪生成过程,直接从噪声中采样随机时段作为候选,并引入去噪学习以确定目标时刻。实验证明 DiffusionVMR 相比现有方法具有更高的效果。
Aug, 2023
通过提出 Moment Context Network 来定位自然语言查询中的视频段,并通过构建 Distinct Describable Moments 数据集实现对局部视屏段的描述。
Aug, 2017
本研究通过利用目标领域的句子(文本提示)而无需访问其视频,探索生成式视频扩散来编辑源视频,实现未知领域的视频时刻检索(VMR)。通过两个问题的解决,即产生具有微妙差异的不同时刻的高质量模拟视频和选择与现有源训练视频互补的模拟视频,优化未知领域的 VMR。
Jan, 2024
通过将生成的视频描述和查询语句在第二阶段的 Transformer 编码器 - 解码器中计算语义相似度并将高相似度的视频帧转换为位置信息,我们的方法在时刻检索和重点检测任务中表现出色,超过了传统方法 Moment-DETR 的定位准确性。
Mar, 2024
本文提出了一种新的弱监督视频瞬间检索框架,包括提议生成和语义完成等组件,并在 ActivityCaptions 和 Charades-STA 数据集上进行了实验证明其有效性。
Nov, 2019
本论文提出了一种基于 Multi-Scale Temporal Adjacent Network (MS-2D-TAN) 的单次框架,通过一组预定义的二维地图在不同的时间尺度下建模视频时序的上下文信息,以实现从未修剪的视频中通过自然语言检索到特定时刻的目标。
Dec, 2020
本文提出了一个基于 2D 时间映射的 Temporal Adjacent Network(2D-TAN)框架,用于在未修剪的视频中匹配与查询句子相关的特定时间点,该框架可以编码相邻的时间关系,并学习具有区分性的特征以提高活动识别的准确性,通过在 Charades-STA,ActivityNet Captions 和 TACoS 等数据集上的表现,证明了该方法的优越性。
Dec, 2019
对现有的视频时刻定位技术(包括监督、弱监督和非监督),以及可用于视频时刻定位的数据集进行全面回顾,并讨论了大规模数据集和可解释视频时刻定位模型等未来发展方向。
Jun, 2023
本研究提出了一种基于扩散模型的动作生成框架 ReMoDiffuse,它集成了一种检索机制以改善去噪过程,提高了文本驱动动作生成的通用性和多样性,并且在更多样化的动作生成方面表现出色,优于现有的最先进方法。
Apr, 2023
DiffusionVG 是一个以扩散模型为基础的新框架,通过生成随机噪声输入逐步改进的逆向扩散过程,将视频定位作为一项条件生成任务,并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。
Oct, 2023