基于查询的视频时刻检索中的隐含挑战揭示
本文提出了一种新的弱监督视频瞬间检索框架,包括提议生成和语义完成等组件,并在 ActivityCaptions 和 Charades-STA 数据集上进行了实验证明其有效性。
Nov, 2019
本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题,并使用基于文本引导的注意力机制学习视频中的相关片段,该方法在两个基准数据集上获得了与监督式学习方法相当的性能。
Apr, 2019
本计划提出了一种新方法,使用多模式 Transformer 进行基于自然语言查询的视频摘要和亮点检测,以匹配用户自然语言查询来检索视频中最相关和最有趣的时刻, 并在多个数据集上进行评估,如 YouTube 亮点和 TVSum。
May, 2023
本文提出了一种 Hierarchical Moment Alignment Network 方法,该方法基于文本查询,可以在视频语料库中检索相关视频,并对视频中的时刻进行定位。实验结果表明该方法在三个基准测试集上实现了令人满意的性能表现。
Aug, 2020
本文提出一种名为 CONQUER 的模型,通过融合多模态视频内容、进行双向注意力以及完全利用查询上下文等方式实现视频检索任务的精确定位和排序。通过实验发现,将视频和查询在线上联合表示可以更好地捕捉多模态信号来提升检索效果。
Sep, 2021
本研究提出了一种新颖的选择性查询引导去偏置网络 (SQuiDNet),通过有意地揭示查询中对象固有的偏倚时刻和执行由查询含义引导的选择性去偏倚以结合检索偏差以及查询中的对象、时刻和文本,本研究在三个时刻检索基准测试(即 TVR、ActivityNet 和 DiDeMo)上验证了 SQuiDNet 的有效性,并表明其具有更好的可解释性。
Oct, 2022
提出一种名为 BM-DETR 的背景感知时刻检测变压器模型,通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度,从而提高视频时刻检索(VMR)的效果和泛化能力。
Jun, 2023
我们提出了一种零样本简单方法来进行视频时刻检索任务,该方法不进行任何添加的精调,并且仅重新利用在其他任务上训练的现成模型。我们在 VMR 的 QVHighlights 基准上大大提高了以前零样本方法的性能,并将零样本与最先进的有监督方法之间的差距缩小了超过 74%。
Nov, 2022