视频中基于语义条件的时序句子 grounding 的动态调节

Oct, 2019

视频中基于语义条件的时序句子 grounding 的动态调节

Semantic Conditioned Dynamic Modulation for Temporal Sentence Grounding in Videos

Yitian Yuan, Lin Ma, Jingwen Wang, Wei Liu, Wenwu Zhu

TL;DR本文提出了一种基于语义条件动态调制机制的匹配算法，该算法依赖于句子语义来调节时间卷积操作，从而更好地对视频内容进行时间上的关联和组合，进而提高了句子与视频的匹配关系，提高了视频句子定位的准确度。

Abstract

temporal sentence grounding in videos aims to detect and localize one target video segment, which semantically corresponds to a given sentence. Existing methods mainly tackle this task via matching and aligning semantics between a sentence and candidate video segments, while neglect th

发现论文，激发创造

更加注重细节：视频中句子的弱监督时间根据地

本文研究了弱监督下的视频句子时间定位问题，提出了一个两阶段模型，通过多尺度滑动窗口形成时间片段的间隔性建议，和在特征空间进行粗细匹配定位，最终在ActivityNet Captions数据集和Charades-STA数据集上取得良好的表现。

Jan, 2020

局部-全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在Charades-STA和ActivityNet Captions数据集上的表现明显优于现有方法。

Apr, 2020

一种简单而有效的视频时间对齐方法，具有交叉模态注意力

本文主要研究了利用语言引导定位视频中的相关片段的问题，提出一种简单直观的跨模态注意力模块(CMA)和针对此任务的新回归损失函数来提高定位精度，并在Charades-STA和ActivityNet Captions数据集上超越了目前最先进的方法。

Sep, 2020

基于记忆的语义学习网络用于时序句子定位

提出了一种名为记忆引导语义学习网络（MGSL-Net）的内存增强网络来学习和记忆 TSG 任务中常见且罕见的内容，通过动态地关联常见和罕见情况，缓解模型忘记的问题，并在测试阶段通过检索存储的记忆来增强罕见情况，实现更好的泛化。

Jan, 2022

基于常识的快速视频时间对齐细节文本对齐学习

本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法。

Apr, 2022

分层本地-全局变压器用于时间句子定位

本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题，并将其应用于 temporal sentence grounding 任务，通过跨模态平行变压器解码器将其编码为最终的基础。

Aug, 2022

先于视觉感知：一种压缩视频时序句子对齐的有效管道

本研究针对压缩视频展开了时间句子引导的任务，并提出了一种全新的三分支压缩域空时融合框架（TCSF）来提取和聚合低级视觉特征以有效地进行时间句子引导。实验结果表明，TCSF较其他最先进的方法具有更好的性能，并具有更低的复杂度。

Mar, 2023

时序语句定位的变换等变一致性学习

介绍了一种新颖的自我监督学习框架，称为等变一致性规则学习（ECRL）框架，用于解决时间句子基础性问题（TSG），并利用该框架通过自我监督方式学习更具有区分性的针对每个视频的基于帧的查询相关表示。

May, 2023

利用全局时间语义知识的视频句子定位

利用伪查询特征加强领域间的联通，提高视觉和语言之间的特征对齐，以实现更好的时间句子定位。

Apr, 2024

无训练视频时间定位的基于大规模预训练模型的方法

本研究解决了现有视频时间定位模型依赖特定数据集进行训练并普遍缺乏泛化能力的问题。提出的无训练视频时间定位方法通过利用大规模预训练模型的能力，分析查询文本中的多个子事件及其时间关系，使得该方法在零-shot视频时间定位任务上表现优越，并在跨数据集和OOD情境下展现出更好的泛化能力。

Aug, 2024