基于查询的跨模态和自我模态图注意力网络的时刻定位

MMAug, 2020

基于查询的跨模态和自我模态图注意力网络的时刻定位

Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization

Daizong Liu, Xiaoye Qu, Xiao-Yang Liu, Jianfeng Dong, Pan Zhou...

TL;DR提出了一种基于查询的时刻定位新任务，使用交叉和自我模态图注意力网络 (CSMGAN)，通过联合图遍历的迭代消息传递过程将最佳匹配段定位在未裁剪的视频中，描述了跨模态交互图 (CMG) 和自模态关系图 (SMG) 的关系，并通过多层联合图来捕捉两种模态之间的高阶交互，提高了定位的精度。

Abstract

query-based moment localization is a new task that localizes the best matched segment in an untrimmed video according to a given sentence query. In this localization task, one should pay more attention to thoroughly mine visual and linguistic information. To this end, we propose a nove

query-based moment localization cross- and self-modal graph attention network iterative messages passing joint graph high-order interactions

发现论文，激发创造

视频中基于查询的时刻检索的跨模态交互网络

本文提出一种新颖的交叉模态交互网络 (CMIN)，通过语法图卷积网络，多头自注意力和多阶段跨模态交互，综合考虑语言查询的句法结构、视频上下文语义依赖关系和跨模态交互，提高了视频检索准确性。

Jun, 2019

面向模态的视频语料库时刻检索的伪查询生成

本文提出了一种基于自监督学习的框架，通过生成基于视觉和文本信息的伪查询，利用多模式信息来定位视频片段，有效地解决了视频中存在的时序动态和多模式推理问题，并在实验中取得了竞争性的结果。

Oct, 2022

LoGAN: 弱监督视频时刻检索的潜在图协同注意力网络

本研究提出了一种新的共现学习框架 (Latent Graph Co-Attention Network)，用于解决标注数据有限的情况下，如何更准确定位与自然语言查询相关的视频片段；通过实验发现，该方法相较以往方法取得了相当显著的进步

Sep, 2019

用于指涉图像分割的跨模态自注意力网络

本文提出了一种跨模态自注意模块 (CMSA)，可以有效地捕捉语言和视觉特征之间的长距离依赖关系，并且采用门控多层融合模块，以选择性地集成不同级别的特征。在多个数据集上的验证表明，我们的方法在图像分割任务上显著优于现有的最先进的方法。

Apr, 2019

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

跨模态门控注意力融合用于多模态情感分析

提出了 CMGA，即跨模态门控注意力融合模型，用于多模态情感分析，证明其在 MOSI 和 MOSEI 两个基准数据集上具有优异的性能，并展示了模型内不同组件的作用。

Aug, 2022

SeCG：基于跨模态图注意力的语义增强的 3D 视觉定位

3D 视觉定位是指在给定相应的文本描述时，自动定位指定对象的 3D 区域。现有的研究在识别相似对象时存在困难，特别是当描述中涉及多个相关对象时。本文提出了一种基于图网络和设计的记忆图注意力层的语义增强关系学习模型 SeCG，以加强不同模态之间的关系导向映射。实验证明，相比现有的最先进方法，本方法提高了多关系挑战的本地化性能。

Mar, 2024

多模态视频问答的情感转移注意力网络

该论文提出了一种称为模态转移关注网络的模型解决多模式视频问答任务，该模型对任务进行任务分解并使用时间提议网络和异构推理网络进行处理，通过模态转移进行任务的执行，这种模型在 TVQA 基准数据集上的实验结果表明它优于之前的最优性能，达到 71.13％的测试准确率，并开展了广泛的消融研究和定性分析以验证网络的各个组件。

Jul, 2020

一种简单而有效的视频时间对齐方法，具有交叉模态注意力

本文主要研究了利用语言引导定位视频中的相关片段的问题，提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度，并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。

Sep, 2020

CMCGAN: 跨模态视听相互生成的统一框架

本文提出了一个基于交叉模态循环生成对抗网络的视听互生成模型，它能有效地从一种模态中恢复另一种模态，从而用于动态多模态分类任务，并通过丰富的实验验证表明该方法具有很好的生成效果。

Nov, 2017