拥抱不确定性：解耦和去偏差用于稳健的时间先验

CVPRMar, 2021

拥抱不确定性：解耦和去偏差用于稳健的时间先验

Embracing Uncertainty: Decoupling and De-bias for Robust Temporal Grounding

Hao Zhou, Chongyang Zhang, Yan Luo, Yanjun Chen, Chuanping Hu

TL;DR本文提出一种名为 DeNet 的方法，它通过 Decoupling 和 De-bias 机制来消除人类主观性带来的查询和标记不确定性，从而在视觉理解领域中的多标签度量方面取得了更好的性能。

Abstract

temporal grounding aims to localize temporal boundaries within untrimmed videos by language queries, but it faces the challenge of two types of inevitable human uncertainties: query uncertainty and label

temporal grounding denet uncertainty multi-label metrics video understanding

发现论文，激发创造

更加注重细节：视频中句子的弱监督时间根据地

本文研究了弱监督下的视频句子时间定位问题，提出了一个两阶段模型，通过多尺度滑动窗口形成时间片段的间隔性建议，和在特征空间进行粗细匹配定位，最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。

Jan, 2020

混洗视频是否有益于解决时间偏置问题：一种新的时间定位训练框架

该论文提出了一种新的培训框架，通过使用混洗的视频来解决时间偏差问题，该框架引入了交叉模态匹配和时间顺序区分两个辅助任务来促进模型训练，以强化其对于长期时间上下文的理解和减轻依赖于时间偏差的影响。

Jul, 2022

深入探讨视频中去偏置的时间句子定位：数据集、度量和方法

本文提出了一种新的视频文本时间对齐评估协议，包括将常用的数据集重新组织为不同的分布以及引入一种新的评估度量方法。此外，作者还提出了一种基于因果关系的多分支去偏置去混淆框架，帮助模型更好地对齐句子查询和视频片段的语义，实现了更好的性能。

Mar, 2022

减少视觉和语言偏见以进行时间性句子定位

本文提出了一种消除多媒体信息检索中选择偏差的 Debiasing-TSG（D-TSG）模型，实现在常见和罕见情况下的 Temporal sentence grounding，在三个基准数据集上取得了最先进的表现。

Jul, 2022

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020

利用全局时间语义知识的视频句子定位

利用伪查询特征加强领域间的联通，提高视觉和语言之间的特征对齐，以实现更好的时间句子定位。

Apr, 2024

弱监督时间轴自然语言地点在未剪辑视频中的强化学习

该研究提出了一个基于强化学习的边界自适应精细化（Boundary Adaptive Refinement，BAR）框架，用于加强视频中自然语言的时间地位确定性，无需精细的标注，并证明其性能优于现有的弱监督和一些有竞争力的全监督方法。

Sep, 2020

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

使用深度语义聚类进行无监督的时间视频锚点定位

本文提出一种无监督学习的方法 Deep Semantic Clustering Network，通过语言语义挖掘、视频语义聚合和前景注意力等步骤，实现对 Temporal video grounding 的定位，取得了竞争性的性能表现。

Jan, 2022

一种简单而有效的视频时间对齐方法，具有交叉模态注意力

本文主要研究了利用语言引导定位视频中的相关片段的问题，提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度，并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。

Sep, 2020