SCANet: 自我和交叉注意网络用于音视频语音分离

Aug, 2023

SCANet: 自我和交叉注意网络用于音视频语音分离

SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech Separation

Kai Li, Runxuan Yang, Xiaolin Hu

TL;DR提出了一种名为自注意力网络（SCANet）的模型，通过利用注意机制实现有效的音频 - 视觉特征融合，其中包含了自注意力块（SA）和交叉注意力块（CA），能够从音频 - 视觉特征中提取不同的语义信息，并在三个标准音频 - 视觉分离基准上得到了更好的效果。

Abstract

The integration of different modalities, such as audio and visual information, plays a crucial role in human perception of the surrounding environment. Recent research has made significant progress in designing fusion modules for audio-visual speech separation. However, they predominan

audio-visual speech separation fusion modules self- and cross-attention network attention blocks modality-specific features

发现论文，激发创造

AV-CrossNet: 一种用于语音分离的音视频复杂频谱映射网络，利用窄频和交叉频带建模

添加视觉线索到基于音频的语音分离可以提高分离性能。本文介绍了一种名为 AV-CrossNet 的音视系统，用于语音增强、目标说话人提取和多说话人分离。AV-CrossNet 扩展自 CrossNet 架构，它是一种最近提出的网络，通过利用全局注意力和位置编码来执行复杂的频谱映射以进行语音分离。为了有效利用视觉线索，该系统结合了预先提取的视觉嵌入并采用了由时间卷积层组成的视觉编码器。音频和视觉特征在早期融合层中融合后馈送到 AV-CrossNet 块。我们使用多个数据集对 AV-CrossNet 进行评估，包括 LRS、VoxCeleb 和 COG-MHEAR 挑战。评估结果表明，AV-CrossNet 在所有音视任务上推动了最先进的性能，即使在未经训练和不匹配的数据集上也是如此。

Jun, 2024

探寻你的语音：学习音视频跨模态关联用于音视频语音分离

本文介绍了一种通过使用音频视觉神经处理技术解决从视频中分离个别语音信号的方法，提出了使用交叉模态亲和力网络（CaffNet）解决由于传输延迟不匹配或抖动引起的两种模态之间的帧不连续问题，并在复杂光谱领域上扩展该模型，实验结果表明此方法在各种数据集上优于传统方法，具有在实际场景中的优势。

Mar, 2021

AudioScopeV2：音视频注意力架构的开放域屏幕声音分离校准

AudioScopeV2 是一个最先进的通用音频视觉屏幕上声音分离系统，能够通过观察野外视频来学习分离声音并将它们与屏幕上的对象关联起来，并提出了解决先前工作的若干限制的解决方案，并通过新的数据集进行评估，最终取得了显着的改进。

Jul, 2022

TCAN: 面向文本的跨模态关注网络用于多模态情感分析

多模态情感分析的研究中，我们引入了一个以文本为导向的交叉注意力网络（TCAN），强调文本在情感分析中的主导作用。通过对多模态样本进行自注意力和文本查询交叉注意力操作，我们减少了噪声信号和冗余特征的影响，并通过背向传播的方法实现了异质情感倾向的深入理解。实验证明，TCAN 在 CMU-MOSI 和 CMU-MOSEI 两个数据集上始终优于最先进的多模态情感分析方法。

Apr, 2024

自监督视听表示学习的协同关注网络

本文提出了一种基于自我监督和共注意力机制的框架，通过区分具有关联性的视觉和声音信息，提出了三种不同的共注意力模块以训练神经网络，并通过测试了解了该方法的广泛和可转移性，成功地在先前的任务中取得了最先进的结果，解决了多声源场景的问题。

Aug, 2020

渐进自信遮罩注意力网络用于音频 - 视觉分割

通过引入渐进自信掩蔽注意力网络（PMCANet），利用注意机制揭示音频信号和视觉帧之间的内在相关性，并设计了高效且有效的跨注意模块来通过选择查询标记增强语义感知。实验证明，我们的网络在需要更少的计算资源的情况下比其他 AVS 方法表现更好。

Jun, 2024

MLCA-AVSR：基于多层交叉注意力融合的音视频语音识别

提出了一种多层交叉注意力融合的视听语音识别方法，通过在不同的音频 / 视觉编码器层级融合各种模态，实现了每种模态的表示学习，实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能，并相对于前期系统获得了最多 3.17% 的相对改进，同时超过了第一名系统，获得了该数据集上的新的最先进 cpCER 为 29.13%。

Jan, 2024

音频 - 视觉个人验证的动态交叉注意力

通过动态交叉注意力（DCA）模型，本文提出了一种能够根据音频和视觉模态之间的强弱互补关系动态选择跨模态关注或不关注特性的模型。实验证明该模型在多个跨模态注意力变体上表现出稳健性，同时优于现有方法的性能。

Mar, 2024

跨模态判别式网络的音视频说话人识别

使用跨模态网络 VFNet（Voice-Face Disciminative Network）来建立人类语音和面部之间的关系，辅助音视觉说话人识别，相较于 2019 年 NIST SRE 中评估集的基准音视频融合，VFNet 实现了 16.54% 相对的准确率降低。

Aug, 2020

SSAN: 可分离自注意力网络用于视频表示学习

该论文提出了一种分离的自注意力模块 (SSA)，通过分别建模空间和时间相关性，有效地将空间上下文信息用于时间建模，将该模块添加到 2D CNN 中形成 SSAN，用于视频表示学习，在 Something-Something 和 Kinetics-400 数据集上超过了现有最先进方法，在 MSR-VTT 和 Youcook2 数据集上得到了显著的性能提升。

May, 2021