基于 3D 卷积神经网络的跨模态音视频匹配识别

Jun, 2017

基于 3D 卷积神经网络的跨模态音视频匹配识别

3D Convolutional Neural Networks for Cross Audio-Visual Matching Recognition

Amirsina Torfi, Seyed Mehdi Iranmanesh, Nasser M. Nasrabadi, Jeremy Dawson

TL;DR本文提出了一种利用耦合三维卷积神经网络架构来映射音频和视频流到统一表示空间，从而有效地找到不同模态之间时间信息的关联性的 AVR 方法，并且相对于现有的采用 3D CNN 特征表示的视听匹配方法，使用较小的网络架构和数据集进行训练，我们的方法显著提高了性能，相比于最先进的方法 Equal Error Rate（EER）的相对改进超过 20% ，而平均准确度（AP）的相对改进超过 7%。

Abstract

audio-visual recognition (AVR) has been considered as a solution for speech recognition tasks when the audio is corrupted, as well as a visual recognition method used for speaker verification in multi-speaker scenarios. The approach of AVR systems is to leverage the extracted informati

audio-visual recognition 3d-cnn architecture multimodal features correlation performance

发现论文，激发创造

多模态深度卷积神经网络实现音视频语音增强

提出了一种音视频深度卷积神经网络（AVDCNN）语音增强模型，该模型在音频处理方面结合了视觉信息，并采用多任务学习框架进行重建音频和视觉信号。实验表明，该模型在语音增强方面表现显著优异，证明了整合视觉信息的有效性，并且优于现有的音频 - 视觉增强模型。

Sep, 2017

AV-CrossNet: 一种用于语音分离的音视频复杂频谱映射网络，利用窄频和交叉频带建模

添加视觉线索到基于音频的语音分离可以提高分离性能。本文介绍了一种名为 AV-CrossNet 的音视系统，用于语音增强、目标说话人提取和多说话人分离。AV-CrossNet 扩展自 CrossNet 架构，它是一种最近提出的网络，通过利用全局注意力和位置编码来执行复杂的频谱映射以进行语音分离。为了有效利用视觉线索，该系统结合了预先提取的视觉嵌入并采用了由时间卷积层组成的视觉编码器。音频和视觉特征在早期融合层中融合后馈送到 AV-CrossNet 块。我们使用多个数据集对 AV-CrossNet 进行评估，包括 LRS、VoxCeleb 和 COG-MHEAR 挑战。评估结果表明，AV-CrossNet 在所有音视任务上推动了最先进的性能，即使在未经训练和不匹配的数据集上也是如此。

Jun, 2024

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

探寻你的语音：学习音视频跨模态关联用于音视频语音分离

本文介绍了一种通过使用音频视觉神经处理技术解决从视频中分离个别语音信号的方法，提出了使用交叉模态亲和力网络（CaffNet）解决由于传输延迟不匹配或抖动引起的两种模态之间的帧不连续问题，并在复杂光谱领域上扩展该模型，实验结果表明此方法在各种数据集上优于传统方法，具有在实际场景中的优势。

Mar, 2021

端到端音视频语音识别

本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Feb, 2018

视音频生物特征匹配

本文研究了跨模态匹配，通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集，使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配，并比较了动态和静态测试，得出了 CNN 在此任务上表现优秀并超越了人类表现。

Apr, 2018

发出声音的物体

本文提出了一种利用未标记视频进行跨模态自监督学习的网络架构，实现音频和视觉之间的信息检索和图像中声音对象的准确定位，同时探究了基于 AVC 任务的网络架构设计方法，并与此相关的数据准备问题进行了讨论。

Dec, 2017

AVFace: 面向详细的音频视觉 4D 人脸重建

该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建，并使用 AVFace 技术准确地重构任何人的面部和唇部运动，而无需任何 3D 地面真实测试。

Apr, 2023

为主动发言人检测提供的端到端音视频特征融合

本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架，利用两个 BiGRU 层来处理音视频输入的时间动态，并在 AVAAcitveSpeaker 数据集上的实验结果表明，该模型具有更好的鲁棒性和更好的推断时间。

Jul, 2022

跨模态判别式网络的音视频说话人识别

使用跨模态网络 VFNet（Voice-Face Disciminative Network）来建立人类语音和面部之间的关系，辅助音视觉说话人识别，相较于 2019 年 NIST SRE 中评估集的基准音视频融合，VFNet 实现了 16.54% 相对的准确率降低。

Aug, 2020