通过联合注意力的递归融合实现音视频事件定位

Aug, 2020

通过联合注意力的递归融合实现音视频事件定位

Audio-Visual Event Localization via Recursive Fusion by Joint Co-Attention

Bin Duan, Hao Tang, Wei Wang, Ziliang Zong, Guowei Yang...

TL;DR本研究提出了一种新的多模态融合联合注意力机制，能够有效地从视听特征中学习联合表示，并通过递归式联合协同作用持续改进，从而在音视频事件定位任务中取得了明显的成果。

Abstract

The major challenge in audio-visual event localization task lies in how to fuse information from multiple modalities effectively. Recent works have shown that attention mechanism is beneficial to the fusion proce

audio-visual event localization attention mechanism multimodal fusion joint attention co-attention

发现论文，激发创造

基于递归融合的联合交叉注意力的音视频人员验证

通过递归融合的联合交叉关注模型和 BLSTMs，本研究有效地捕捉音频和视觉模态之间的内在和跨模态关系，显著提高了融合性能。

Mar, 2024

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

基于回归的情感识别中的音视频融合中的递归联合注意力

本文提出了一种递归联合注意模型，结合长短期记忆模块，用于融合语音和面部表情进行基于回归的情感识别，结果表明该模型比现有技术表现更好。

Apr, 2023

音视频说话人验证基于联合交叉注意力

通过跨模态联合注意力来提升说话人验证的性能，进一步发掘音频和视觉融合在说话人验证领域的潜力。

Sep, 2023

自监督视听表示学习的协同关注网络

本文提出了一种基于自我监督和共注意力机制的框架，通过区分具有关联性的视觉和声音信息，提出了三种不同的共注意力模块以训练神经网络，并通过测试了解了该方法的广泛和可转移性，成功地在先前的任务中取得了最先进的结果，解决了多声源场景的问题。

Aug, 2020

MM-Pyramid: 多模塔形注意力网络用于音视频事件定位和视频解析

提出了一种名为 MM-Pyramid 的多模式金字塔式注意力网络，该网络使用注意力特征金字塔模块和语义融合模块，以实现视频中事件的识别和定位。

Nov, 2021

重新思考弱监督的音频 - 视觉视频解析中的跨模态融合

通过引入混合注意力网络、信使引导中融合变换以及跨音频预测一致性等方法，本研究提出了一种新的弱监督音频 - 视觉视频解析框架，以解决多模态融合中的问题并改进单模态事件检测的性能。实验表明，我们的框架相比现有的最先进方法，表现更加优越。

Nov, 2023

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

观看、倾听和描述：全局和局部对齐的跨模态关注力用于视频字幕生成

提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态，在视频字幕任务中，首次验证了深度音频特征的卓越性能，该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。

Apr, 2018

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017