本文研究弱监督视频对象定位问题,并探讨了在图像域中使用的多实例学习方法在视频域中的扩展性。作者提出了一种将弱监督信号从视频层面传递到帧层面的方法,并将对象之间的交互作为定位的文本指导。在新收集的基准测试YouCook2-BoundingBox上,该模型取得了竞争基线方法无法匹敌的表现。
May, 2018
本文提出了一种新型任务,即利用注意力机制对视频中的自然语句进行弱监督的空时地定位,实现视频中与自然语句语义相符的空时地定位,同时引入多样性损失函数来加强可靠的实例-句子配对的匹配行为,并惩罚不可靠的行为,在ImageNet视频对象检测数据集上提供了一个新的基准数据集VID-sentence,并广泛实现了实验结果,表明我们的模型优于基线方法。
Jun, 2019
本文提出了一种基于语义条件动态调制机制的匹配算法,该算法依赖于句子语义来调节时间卷积操作,从而更好地对视频内容进行时间上的关联和组合,进而提高了句子与视频的匹配关系,提高了视频句子定位的准确度。
Oct, 2019
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在Charades-STA和ActivityNet Captions数据集上的表现明显优于现有方法。
Apr, 2020
该研究提出了一个基于强化学习的边界自适应精细化(Boundary Adaptive Refinement,BAR)框架,用于加强视频中自然语言的时间地位确定性,无需精细的标注,并证明其性能优于现有的弱监督和一些有竞争力的全监督方法。
Sep, 2020
本文主要研究了利用语言引导定位视频中的相关片段的问题,提出一种简单直观的跨模态注意力模块(CMA)和针对此任务的新回归损失函数来提高定位精度,并在Charades-STA和ActivityNet Captions数据集上超越了目前最先进的方法。
本篇论文提出了一种新的候选不受限制的方法——Fine-grained Semantic Alignment Network(FSAN),用于弱监督的Temporal Language Grounding任务,在两个广泛使用的基准测试中取得了最先进的性能。
Oct, 2022
通过提出一个新的挑战性任务Weakly-Supervised temporal Article Grounding(WSAG)和一个有效的方法DualMIL,可以在一个相关的多媒体资源(文章和视频)的不同层级之间定位相关句子。我们提出了第一个WSAG数据集YouwikHow,利用wikiHow文章和YouTube视频中的多尺度描述,并证明了DualMIL的有效性。
本研究针对压缩视频展开了时间句子引导的任务,并提出了一种全新的三分支压缩域空时融合框架(TCSF)来提取和聚合低级视觉特征以有效地进行时间句子引导。实验结果表明,TCSF较其他最先进的方法具有更好的性能,并具有更低的复杂度。
Mar, 2023
本研究解决了现有视频时间定位模型依赖特定数据集进行训练并普遍缺乏泛化能力的问题。提出的无训练视频时间定位方法通过利用大规模预训练模型的能力,分析查询文本中的多个子事件及其时间关系,使得该方法在零-shot视频时间定位任务上表现优越,并在跨数据集和OOD情境下展现出更好的泛化能力。
Aug, 2024