DiffusionVMR:视频时刻检索的扩散模型
该研究提出了一种基于因果关系的视频时刻检索框架,利用Deconfounded Cross-modal Matching(DCM)方法去除时刻位置的混淆效应,并在考虑所有可能的目标位置的情况下,公平地将查询和视频内容纳入模型中以提高准确性和泛化性能。
Jun, 2021
DiffusionDet是一种将对象检测作为从噪声框到对象框的去噪扩散过程的新框架,其在训练阶段通过对象框从地面实况框扩散到随机分布,模型学习将该过程反转,在推断阶段,模型以渐进方式将一组随机生成框细化为输出结果,使用随机框作为对象候选框有利于解决对象检测问题,并且该问题可以通过生成方法来解决。
Nov, 2022
本文提出了一种名为Cheaper and Faster Moment Retrieval(CFMR)的新方法,其基于点级别监督,并设计了一种基于概念的多模式对齐机制,旨在提高VMR的检索效率。此方法可有效解决现有VMR方法所存在的昂贵的时间注释、计算成本高、效率低等问题,并在VMR基准测试中取得了新的最佳性能。
May, 2023
提出一种名为BM-DETR的背景感知时刻检测变压器模型,通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度,从而提高视频时刻检索(VMR)的效果和泛化能力。
Jun, 2023
视频时刻检索通过一个名为MomentDiff的生成性扩散框架,实现了对未修剪视频中与给定语言描述相对应的特定时间段的高效广义解决方案。
Jul, 2023
DiffusionVG是一个以扩散模型为基础的新框架,通过生成随机噪声输入逐步改进的逆向扩散过程,将视频定位作为一项条件生成任务,并在主流Charades-STA和ActivityNet Captions基准测试中展示了竞争性甚至优越的性能。
Oct, 2023
本研究通过利用目标领域的句子(文本提示)而无需访问其视频,探索生成式视频扩散来编辑源视频,实现未知领域的视频时刻检索(VMR)。通过两个问题的解决,即产生具有微妙差异的不同时刻的高质量模拟视频和选择与现有源训练视频互补的模拟视频,优化未知领域的VMR。
Jan, 2024
探索了基于预训练的文本到视频(T2V)扩散模型产生的视觉表示,在视频理解任务中的应用,通过验证经典的参考视频对象分割(R-VOS)任务的假设,介绍了一个名为“VD-IT”的新框架,结合了预训练的T2V模型,利用文本信息作为条件输入,确保时间上的语义一致性,进一步加入图像标记作为补充文本输入,丰富特征集合以生成详细和细腻的掩码,并且通过大量实验证明,与常用的基于图像/视频预训练任务的视频骨干网络(例如Video Swin Transformer)相比,固定的生成T2V扩散模型在保持语义对齐和时间一致性方面具有更好的潜力,在现有的标准基准上,VD-IT取得了非常有竞争力的结果。
Mar, 2024
利用图像-文本预训练的多模态大语言模型(MLLMs)进行时刻检索,获得了令人惊讶的有效性,并且在时刻检索和时序动作定位任务上实现了最新的性能。
Jun, 2024