LRS2 数据集中重叠语音的音视频识别

Jan, 2020

LRS2 数据集中重叠语音的音视频识别

Audio-visual Recognition of Overlapped speech for the LRS2 dataset

Jianwei Yu, Shi-Xiong Zhang, Jian Wu, Shahram Ghorbani, Bo Wu...

TL;DR本研究探讨了利用视听技术识别重叠的语音信息的三个问题，包括基本体系结构设计，模态融合的建议设计门，以及通过优化的统一的方法来建立 AVSR 系统。实验结果表明，该系统在 LRS2 数据集上的性能超过了传统的语音分离和识别组件的流水线架构，可获得相对于仅音频的基线 LF-MMI DNN 系统高达 29.98% 的字错误率（WER）降低，而采用特征融合技术的 AVSR 系统相对于基准系统进一步提高了 4.89% 的 WER 降低。

Abstract

Automatic recognition of overlapped speech remains a highly challenging task to date. Motivated by the bimodal nature of human speech perception, this paper investigates the use of audio-visual technologies for overlapped speech recognition. Three issues associated with the construction of audio-visual speech recognition (AVSR) systems are addressed. First,

overlapped speech recognition audio-visual technology modality fusion gates lf-mmi criterion tdnn system

发现论文，激发创造

MLCA-AVSR：基于多层交叉注意力融合的音视频语音识别

提出了一种多层交叉注意力融合的视听语音识别方法，通过在不同的音频 / 视觉编码器层级融合各种模态，实现了每种模态的表示学习，实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能，并相对于前期系统获得了最多 3.17% 的相对改进，同时超过了第一名系统，获得了该数据集上的新的最先进 cpCER 为 29.13%。

Jan, 2024

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

音频视觉端到端多通道语音分离、去混响和识别

通过全面将视频信息融入系统的所有组件，我们提出了一种音频 - 视觉多通道语音分离、去混响和识别方法，有效地解决了包含重叠发言者、噪声和混响的鸡尾酒会言语的准确识别问题。

Jul, 2023

判别式多模态语音识别

本文提出了一种基于视听的两阶段语音识别模型，该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率，同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能，实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升，表明 AE-MSR 的必要性和有效性。

May, 2020

通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别

我们提出了一个基于强化学习的框架（MSRL），动态地协调模态不变和模态特异性的表示，从而稳定地提供互补信息，用于音视频语音识别任务，实验结果表明，此方法在 LRS3 数据集中取得了最新的成果。

Dec, 2022

通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别

本文提出了两种新技术来改善音视频语音识别，通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位，以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明，使用相对较少的训练数据，该系统比复杂的前端和后端现有系统取得更好的性能。

Aug, 2023

基于注意力机制的视听融合在强鲁棒性自动语音识别中的应用

本文提出了一种音频视觉融合策略，该策略不仅可以超越简单的特征连接，而且可以自动地对齐两种方式，具有提高语音识别准确性的增强表示，特别适合干扰噪声环境中的识别任务，并且可以推广到许多涉及相关模态的多模态任务中。

Sep, 2018

深度多模态学习用于音视频语音识别

本文介绍深度多模态学习的方法，用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明，使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。

Jan, 2015