带序列匹配的并行关注网络用于视频 grounding

ACLMay, 2021

带序列匹配的并行关注网络用于视频 grounding

Parallel Attention Network with Sequence Matching for Video Grounding

Hao Zhang, Aixin Sun, Wei Jing, Liangli Zhen, Joey Tianyi Zhou...

TL;DR本文提出了一个名为 SeqPAN 的并行注意力网络，用于解决视频 grounding 时的多模态表示学习和目标时刻边界预测问题。通过一个自主引导的并行注意力模块，SeqPAN 可以有效地捕捉自我模态上下文和视频文本的跨模态关注信息，并使用序列匹配策略指导开始 / 结束边界的预测。实验结果表明，SeqPAN 优于现有最先进方法。另外，自主引导的并行关注模块和序列匹配模块的有效性得到了验证。

Abstract

Given a video, video grounding aims to retrieve a temporal moment that semantically corresponds to a language query. In this work, we propose a Parallel Attention Network with sequence matching (SeqPAN) to addres

video grounding multi-modal representation learning sequence matching self-guided parallel attention module natural language processing

发现论文，激发创造

利用全局时间语义知识的视频句子定位

利用伪查询特征加强领域间的联通，提高视觉和语言之间的特征对齐，以实现更好的时间句子定位。

Apr, 2024

神经序列短语 grounding (SeqGROUND)

本文提出了一种基于 LSTM 堆叠的序列上下文模型 (SeqGROUND) 进行短语映射及其在模型架构设计上的有效性的验证，并在 Flickr30K 基准数据集上展示了具有竞争力的表现。

Mar, 2019

一种简单而有效的视频时间对齐方法，具有交叉模态注意力

本文主要研究了利用语言引导定位视频中的相关片段的问题，提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度，并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。

Sep, 2020

基于多级弱监督关注重建网络的视频文本查询锚定

本文提出一种基于弱监督学习的多级注意力重建网络（MARN）来实现视频中文本查询的时间定位，该方法又利用注意重建的思想，建立了一个候选时间片段的注意力模型，并利用候选片段和视频句子对进行训练。作者还利用 2D 卷积来提取更可靠的注意力图，并在 Charades-STA 和 ActivityNet-Captions 数据集上进行实验，表明 MARN 优于现有的弱监督方法。

Mar, 2020

跨模态对比学习与非对称协同注意网络在视频时刻检索中的应用

视频时刻检索是一项具有挑战性的任务，需要视频和文本模态之间的精细交互。我们评估了一个最近提出的解决方案，在视频 grounding 任务中引入了不对称协同注意力网络，并在两个模态中加入了动量对比损失，其整合效果在 TACoS 数据集上表现更好，并在 ActivityNet Captions 上表现可比的结果，而且相对于基线模型，参数数量显著减少。

Dec, 2023

面向时间语言对接的关系感知视频阅读理解

本文提出了一种使用选择 - 查询交互和选择 - 选择关系构建解决视频阅读理解中的时间语言接地问题的框架，并引入了一种新颖的多选择关系构造器，通过利用图卷积捕获最佳选择的视频时刻之间的依赖关系，并在 ActivityNet-Captions、TACoS 和 Charades-STA 数据集上进行了广泛的实验证明了我们的方法的有效性。

Oct, 2021

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

自我监督的空间位置辅助指令视频中的叙述理解

该文介绍了将叙述交互视频逐帧定位的任务，并通过一个多层交叉模态注意力网络实现自我监督的效果，其中交替计算视觉和自然语言模态的相互关注，以有效地进行训练，其表现超过基线模型包括浅层和全跨模态关注。

Oct, 2021

基于端到端网络的实时全景叙事性 grounding

本研究提出了一种用于实时 PNG 的单阶段网络，名为端到端全景叙事接地网（EPNG），通过将两个创新设计：局部感知关注（LPA）和双向语义对齐损失（SAL），用于处理文本表达式和视觉对象之间复杂的多对多关系，从而直接生成指示物的掩模，以及提高分段结果和语义一致性的泛化能力。

Jan, 2023

自然语言时序相邻网络学习用于时刻定位

本文提出了一个基于 2D 时间映射的 Temporal Adjacent Network（2D-TAN）框架，用于在未修剪的视频中匹配与查询句子相关的特定时间点，该框架可以编码相邻的时间关系，并学习具有区分性的特征以提高活动识别的准确性，通过在 Charades-STA，ActivityNet Captions 和 TACoS 等数据集上的表现，证明了该方法的优越性。

Dec, 2019