端到端音视频语音识别

Feb, 2018

End-to-end Audiovisual Speech Recognition

Stavros Petridis, Themos Stafylakis, Pingchuan Ma, Feipeng Cai, Georgios Tzimiropoulos...

TL;DR本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Abstract

Several end-to-end deep learning approaches have been recently presented which extract either audio or visual features from the input images or audio signals and perform speech recognition. However, research on <

end-to-end deep learning audiovisual model bgru feature extraction

发现论文，激发创造

为主动发言人检测提供的端到端音视频特征融合

本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架，利用两个 BiGRU 层来处理音视频输入的时间动态，并在 AVAAcitveSpeaker 数据集上的实验结果表明，该模型具有更好的鲁棒性和更好的推断时间。

Jul, 2022

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015

基于 LSTM 的端到端视觉语音识别

本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Jan, 2017

判别式多模态语音识别

本文提出了一种基于视听的两阶段语音识别模型，该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率，同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能，实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升，表明 AE-MSR 的必要性和有效性。

May, 2020

双模态循环神经模型的端到端音视频语音活动检测

本研究提出了一种使用双模态循环神经网络（BRNN）的音视频系统来实现语音活动检测（SAD），它可以从原始数据中直接学习音频和视觉特征，提高在嘈杂环境下的鲁棒性，结果表明该方法在实际场景中的效果比只使用深度神经网络（DNN）实现的语音检测系统提高了 1.2%，在嘈杂环境下使用平板电脑传感器评估的 F1 评分为 92.7%，仅比理想条件下高清摄像机和近距离话筒获取干净语音时的性能低 1.0%。

Sep, 2018

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

音视频语音识别的循环神经网络转录器

本研究提出了一种基于循环神经网络转录者（RNN-T）架构的大规模视音频语音识别系统，并通过比较语音，视觉和视听系统在两个大词汇测试集上的表现，以及在带噪声和重叠的人工干扰的数据上的表现，突显了视觉模态的贡献。据我们所知，我们的系统显著改善了现有技术在公开数据集 LRS3-TED 上的表现。

Nov, 2019

序列到序列语音识别的多模态基础

本研究提出了基于多模态的端到端自适应语音识别系统，采用卷积神经网络获取视觉信息，与传统方法相比表现优越。

Nov, 2018

关于音视觉语音识别对缺失视频的鲁棒性

通过引入一个可以准确且可测试地评估鲁棒性的框架，我们对常见的多模态语音识别架构在各种噪声条件和测试套件中的鲁棒性进行了系统的实证研究，并展示了一种基于级联的与架构无关的解决方案，可以在存在缺失视频的情况下持续实现鲁棒性。

Dec, 2023

基于评分的生成模型的音视频语音增强

本文介绍了一种利用基于分数的生成模型，即扩散模型，以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入，将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明，所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果，并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持，其中尤其在输入信噪比低的情况下，该模型的单词错误率明显降低。

Jun, 2023