视频弱监督时序检索的正则化双分支提议网络
本文提出了一种新的弱监督视频瞬间检索框架,包括提议生成和语义完成等组件,并在 ActivityCaptions 和 Charades-STA 数据集上进行了实验证明其有效性。
Nov, 2019
本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题,并使用基于文本引导的注意力机制学习视频中的相关片段,该方法在两个基准数据集上获得了与监督式学习方法相当的性能。
Apr, 2019
本文提出了一种弱监督方法(wVMR)进行视频瞬间检索,通过使用对齐网络实现了更清晰的注意力和更少的计算负荷,并使用对比学习来训练模型。
Aug, 2020
研究了针对弱监督下的时空动作定位问题,提出了一种基于提议的多实例学习框架,其中包括环绕对比特征提取模块来抑制具有对比性的短提议、提议完整性评估模块来抑制低质量提议以及实例级别排名一致性损失来实现动作定位。实验结果表明,该方法性能优越。
May, 2023
本研究提出了一种新的共现学习框架 (Latent Graph Co-Attention Network), 用于解决标注数据有限的情况下,如何更准确定位与自然语言查询相关的视频片段;通过实验发现,该方法相较以往方法取得了相当显著的进步
Sep, 2019
本文介绍了一种新颖的多阶段渐进式本地化网络(PLN),采用不同时间粒度生成的候选时刻进行本地化,并使用条件特征操作模块和上采样连接以使后续阶段能够吸收以前已学习的信息,特别适合定位长视频中的短片段。
Feb, 2021
本文旨在评估当前 benchmark 数据集反映真实查询基于片段检索的进展的能力,指出了目前数据集存在的偏差。作者同时提出了新的实验方法,以便更好地可视化结果,并在最后展望了未来的研究方向与改进。
Sep, 2020
本文提出了一种新型任务,即利用注意力机制对视频中的自然语句进行弱监督的空时地定位,实现视频中与自然语句语义相符的空时地定位,同时引入多样性损失函数来加强可靠的实例 - 句子配对的匹配行为,并惩罚不可靠的行为,在 ImageNet 视频对象检测数据集上提供了一个新的基准数据集 VID-sentence,并广泛实现了实验结果,表明我们的模型优于基线方法。
Jun, 2019
该论文提出了一种新的多粒度感知网络 (MGPN),旨在改善视频中的时刻检索,将时刻检索建模为一种多选阅读理解任务,结合人类阅读策略,并通过优化算法提高了检索精度。
May, 2022
本文研究了弱监督下的视频句子时间定位问题,提出了一个两阶段模型,通过多尺度滑动窗口形成时间片段的间隔性建议,和在特征空间进行粗细匹配定位,最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。
Jan, 2020