本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架,利用 LRS3 数据集的少量标记数据,在噪音干扰的情况下提高了超过 50% 的性能,并且比基于音频的模型将词错误率减少了 75% 以上。
Jan, 2022
通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。
Mar, 2024
AVFormer 是一种简单的方法,使用轻量级可训练的适配器将视觉嵌入注入到冻结的语音识别模型中,并引入了一种培训方案。同时用小量且弱标注视频数据进行培训。实验结果表明,该方法在三个不同的音视频 ASR 基准(How2、VisSpeech 和 Ego4D)上取得了最先进的零 - shot 结果,同时在传统的仅语音识别基准(LibriSpeech)上表现良好。
Mar, 2023
本文提出使用视频变压器替换三维卷积进行视觉特征提取,从而提高音频 - 视觉自动语音识别的性能,并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明,该方法在 LRS3-TED 上取得了国际领先的性能表现。另外,在多人音频 - 视觉自动语音识别方面,该方法相对于三维卷积实现了平均降低 2% 的性能损失。
自我监督学习在发音验证中表现出与有监督系统相近的性能,本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签,实现了语音表示学习中的有监督性能,取得了 0.99%的 EER,接近有监督基线 0.94%的 EER。
Jun, 2024
AV-TranSpeech 是第一种不依赖中间文本的视听信息补充模型,通过自监督预训练和跨模态蒸馏,可以有效提高低资源视听数据的语音转换性能。
May, 2023
本文讨论了如何利用未经筛选的音频数据进行自监督学习,在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略,比较了近期开发的对比损失,并通过实验结果表明,利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。
May, 2022
我们提出了一个基于强化学习的框架(MSRL),动态地协调模态不变和模态特异性的表示,从而稳定地提供互补信息,用于音视频语音识别任务,实验结果表明,此方法在 LRS3 数据集中取得了最新的成果。
Dec, 2022
提出了高效音频 Transformer(EAT)模型,通过自监督训练范式和新颖的话语 - 帧目标(UFO)增强声音事件建模能力,探究了掩模策略在音频自监督学习中的关键性作用,并在多种音频相关任务中实现了最先进的性能,并且相比现有的音频自监督学习模型,预训练速度提升了约 15 倍。
Jan, 2024
我们提出了两种简单的方法,使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构,从而在训练期间避免使用自监督学习模型,加快了训练速度,并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。
Apr, 2024