汉英双语中，使用改进的装订器增强音像 HUBERT 的实践

Feb, 2023

汉英双语中，使用改进的装订器增强音像 HUBERT 的实践

Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and English

Xiaoming Ren, Chao Li, Shenjian Wang, Biao Li

TL;DR该论文介绍了一种混合方法，名为 conformer-enhanced AV-HuBERT，该方法在语音识别方面的表现进一步提高。该方法基于 AV-HuBERT，在一个清洁和嘈杂环境下分别实现了相对 WER 降低 7％和 16％。除此之外，该论文还提出了一个新的 1000 小时的普通话语音识别数据集 CSTS，通过预先训练，该方法相对于基线 AV-HuBERT 超过了 WeNet ASR 系统。conformer-enhanced AV-HuBERT 相对于基线 AV-HuBERT 系统，在 MISP 和 CMLR 上分别减少了 7％和 6％的 CER。

Abstract

Considering the bimodal nature of human speech perception, lips, and teeth movement has a pivotal role in automatic speech recognition. Benefiting from the correlated and noise-invariant visual information, audio-visual

audio-visual speech recognition hubert conformer-enhanced mandarin dataset

发现论文，激发创造

基于掩码多模态聚类预测的音视频语音表征学习

AV-HuBERT 是自监督学习框架，用于从视频、音频中学习音视双方言的表征，可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上，使用 AV-HuBERT 的自我训练，口型阅读错误率降低到 26.9％，使用相同的表征进行语音识别的性能提高了 40％相对减少至 1.3％。

Jan, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别

本文提出了两种新技术来改善音视频语音识别，通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位，以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明，使用相对较少的训练数据，该系统比复杂的前端和后端现有系统取得更好的性能。

Aug, 2023

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023

嘈杂环境下唇读识别：通用视音位映射与转移提升音视频语音识别鲁棒性

本文提出了一种基于视觉模态的无监督噪声适应方案，使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明，我们的方法在各种噪声和清晰条件下都达到了最先进水平，此外在视觉语音识别任务上也优于之前的最优水平。

Jun, 2023

AV-Lip-Sync+: 利用 AV-HuBERT 揭示多模态不一致性的视频深度伪造检测

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

基于注意力机制的视听融合在强鲁棒性自动语音识别中的应用

本文提出了一种音频视觉融合策略，该策略不仅可以超越简单的特征连接，而且可以自动地对齐两种方式，具有提高语音识别准确性的增强表示，特别适合干扰噪声环境中的识别任务，并且可以推广到许多涉及相关模态的多模态任务中。

Sep, 2018

增强式说话人脸视频生成与评估的音频视觉语音表示专家

使用 AV-HuBERT 进行口型同步损失的计算，并引入三种新的口型同步评估指标，以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。

May, 2024