音频 - 视觉微调的音频识别模型 | BriefGPT

Dec, 2023

音频 - 视觉微调的音频识别模型

Audio-visual fine-tuning of audio-only ASR models

Avner May, Dmitriy Serdyuk, Ankit Parag Shah, Otavio Braga, Olivier Siohan

TL;DR使用简单且快速的音频自我监督学习方法，并进行音视频模型的有指导微调，可在减少大量文本数据依赖的同时与最先进的音视频自我监督学习方法竞争，并且更为高效和快速。

Abstract

audio-visual automatic speech recognition (AV-ASR) models are very effective at reducing word error rates on noisy speech, but require large amounts of transcribed AV training data. Recently, audio-visual self-supervise

audio-visual automatic speech recognition self-supervised learning av-ssl methods lrs3-ted benchmark task audio-only ssl method

发现论文，激发创造

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

AVFormer: 为冻结的语音模型注入视觉信息以实现零样本 AV-ASR

AVFormer 是一种简单的方法，使用轻量级可训练的适配器将视觉嵌入注入到冻结的语音识别模型中，并引入了一种培训方案。同时用小量且弱标注视频数据进行培训。实验结果表明，该方法在三个不同的音视频 ASR 基准（How2、VisSpeech 和 Ego4D）上取得了最先进的零 - shot 结果，同时在传统的仅语音识别基准（LibriSpeech）上表现良好。

Mar, 2023

基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别

本文提出使用视频变压器替换三维卷积进行视觉特征提取，从而提高音频 - 视觉自动语音识别的性能，并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明，该方法在 LRS3-TED 上取得了国际领先的性能表现。另外，在多人音频 - 视觉自动语音识别方面，该方法相对于三维卷积实现了平均降低 2% 的性能损失。

Jan, 2022

利用大规模 ASR 模型，在自监督学习中追求说话者验证的有监督性能

自我监督学习在发音验证中表现出与有监督系统相近的性能，本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签，实现了语音表示学习中的有监督性能，取得了 0.99％的 EER，接近有监督基线 0.94％的 EER。

Jun, 2024

AV-TranSpeech: 音视觉鲁棒语音 - 语音翻译

AV-TranSpeech 是第一种不依赖中间文本的视听信息补充模型，通过自监督预训练和跨模态蒸馏，可以有效提高低资源视听数据的语音转换性能。

May, 2023

在实际应用中应用自监督学习，实现混合式自动语音识别

本文讨论了如何利用未经筛选的音频数据进行自监督学习，在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略，比较了近期开发的对比损失，并通过实验结果表明，利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。

May, 2022

通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别

我们提出了一个基于强化学习的框架（MSRL），动态地协调模态不变和模态特异性的表示，从而稳定地提供互补信息，用于音视频语音识别任务，实验结果表明，此方法在 LRS3 数据集中取得了最新的成果。

Dec, 2022

EAT：高效音频 Transformer 的自监督预训练

提出了高效音频 Transformer（EAT）模型，通过自监督训练范式和新颖的话语 - 帧目标（UFO）增强声音事件建模能力，探究了掩模策略在音频自监督学习中的关键性作用，并在多种音频相关任务中实现了最先进的性能，并且相比现有的音频自监督学习模型，预训练速度提升了约 15 倍。

Jan, 2024

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024