拥抱不确定性:解耦和去偏差用于稳健的时间先验
本文研究了弱监督下的视频句子时间定位问题,提出了一个两阶段模型,通过多尺度滑动窗口形成时间片段的间隔性建议,和在特征空间进行粗细匹配定位,最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。
Jan, 2020
该论文提出了一种新的培训框架,通过使用混洗的视频来解决时间偏差问题,该框架引入了交叉模态匹配和时间顺序区分两个辅助任务来促进模型训练,以强化其对于长期时间上下文的理解和减轻依赖于时间偏差的影响。
Jul, 2022
本文提出了一种新的视频文本时间对齐评估协议,包括将常用的数据集重新组织为不同的分布以及引入一种新的评估度量方法。此外,作者还提出了一种基于因果关系的多分支去偏置去混淆框架,帮助模型更好地对齐句子查询和视频片段的语义,实现了更好的性能。
Mar, 2022
本文提出了一种消除多媒体信息检索中选择偏差的 Debiasing-TSG(D-TSG)模型,实现在常见和罕见情况下的 Temporal sentence grounding,在三个基准数据集上取得了最先进的表现。
Jul, 2022
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。
Apr, 2020
该研究提出了一个基于强化学习的边界自适应精细化(Boundary Adaptive Refinement,BAR)框架,用于加强视频中自然语言的时间地位确定性,无需精细的标注,并证明其性能优于现有的弱监督和一些有竞争力的全监督方法。
Sep, 2020
本文提出了一种基于多模态框架的文本指导视频时间地基方法,采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习,在 Charades-STA 和 ActivityNet Captions 数据集上实验表明,该方法表现优越。
Jul, 2021
本文提出一种无监督学习的方法 Deep Semantic Clustering Network,通过语言语义挖掘、视频语义聚合和前景注意力等步骤,实现对 Temporal video grounding 的定位,取得了竞争性的性能表现。
Jan, 2022
本文主要研究了利用语言引导定位视频中的相关片段的问题,提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度,并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。
Sep, 2020