基于视觉感知的音频特征增强，用于稳健的端对端音视频语音识别

Jul, 2022

基于视觉感知的音频特征增强，用于稳健的端对端音视频语音识别

Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech Recognition

Joanna Hong, Minsu Kim, Daehun Yoo, Yong Man Ro

TL;DR本文提出了一种噪声强韧的端到端的视听语音识别系统，其中使用视觉背景驱动音频特征增强模块（V-CAFE）通过考虑所获得的视觉背景来生成噪声降低掩模，进而提升音频特征，结合 Conformer 和 Transformer 模型进一步提高了噪声稳健性，并在大型视听数据集 LRS2 和 LRS3 上进行了实验验证。

Abstract

This paper focuses on designing a noise-robust end-to-end Audio-Visual Speech Recognition (AVSR) system. To this end, we propose visual context-driven Audio Feature Enhancement module (V-CAFE) to enhance the input noisy audio speech with a help of audio-visual correspondence. The propo

audio-visual speech recognition visual context noise reduction conformer transformer

发现论文，激发创造

MLCA-AVSR：基于多层交叉注意力融合的音视频语音识别

提出了一种多层交叉注意力融合的视听语音识别方法，通过在不同的音频 / 视觉编码器层级融合各种模态，实现了每种模态的表示学习，实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能，并相对于前期系统获得了最多 3.17% 的相对改进，同时超过了第一名系统，获得了该数据集上的新的最先进 cpCER 为 29.13%。

Jan, 2024

协同双重注意力的音视频语音增强与面部线索

通过利用人脸线索，特别是唇部区域以外的面部区域，来提高语音视觉增强的鲁棒性。

Nov, 2023

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

嘈杂环境下唇读识别：通用视音位映射与转移提升音视频语音识别鲁棒性

本文提出了一种基于视觉模态的无监督噪声适应方案，使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明，我们的方法在各种噪声和清晰条件下都达到了最先进水平，此外在视觉语音识别任务上也优于之前的最优水平。

Jun, 2023

音视频语音编解码器：重新思考音视频语音增强通过再合成的方法

本文提出了一种新的音频 - 视觉语音增强框架，利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音，以提高增强幅度和视角方面的质量。

Mar, 2022

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023

通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别

本文提出了两种新技术来改善音视频语音识别，通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位，以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明，使用相对较少的训练数据，该系统比复杂的前端和后端现有系统取得更好的性能。

Aug, 2023

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

使用主动说话者注意力模块的端到端多讲话人音频 - 视觉自动语音识别

本文提出了一种新的终端对终端的音视频多人说话识别方法 - 视觉上下文注意力模型 (VCAM)，使用可用的视频信息将解码的文本分配给多个可见面孔中的一个，具有解决多人说话建模方法中的标签歧义问题，该方法实现为基于 Transformer-Transducer 的终端到终端模型，并使用来自 YouTube 视频的两个说话者音频 - 视觉重叠话语数据集进行评估，表明 VCAM 模型相对于之前报告的仅音频和音视频多人说话识别系统提高了性能。

Apr, 2022