ViSpeR: 多语言音视频语音识别

May, 2024

ViSpeR: Multilingual Audio-Visual Speech Recognition

Sanath Narayan, Yasser Abdelaziz Dahou Djilali, Ankit Singh, Eustache Le Bihan, Hakim Hacid

TL;DR该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上，对音视频语音识别（AVSR）进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练，在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争力。该研究通过提供数据集和模型给研究社区，旨在为音视频语音识别领域的进一步研究和探索奠定基础。

Abstract

This work presents an extensive and detailed study on Audio-Visual Speech Recognition (avsr) for five widely spoken languages: Chinese, Spanish, English, Arabic, and French. We have collected large-scale datasets

audio-visual speech recognition avsr multilingual setting datasets models

发现论文，激发创造

野外多语言视觉语音识别

本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Feb, 2022

利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

该论文提出了一种面向多种语言特别是对于有限标注数据的低资源语言的强大的视觉语音识别（VSR）方法，通过使用 Whisper 模型，它可以进行语言识别和基于音频的语音识别，从而在没有人工注释的情况下获得与人工注释标签相似的 VSR 性能，并提供了大规模无标注多语言数据库的自动标签。

Sep, 2023

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

SlideAVSR：用于视听语音识别的论文解释视频数据集

通过构建 SlideAVSR 数据集，这篇论文提出了一种用于科学论文解释视频的 AVSR 数据集，旨在为模型提供在演示录音中将语音话语转录为滑动演示文本的基准评估。同时，论文还介绍了一种名为 DocWhisper 的简单但有效的 AVSR 模型，它可以参考来自幻灯片的文本信息，并在 SlideAVSR 数据集上验证其有效性。

Jan, 2024

XLAVS-R：跨语言音视频言语表征学习用于噪音鲁棒言语感知

基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型，在噪声环境下提高语音识别和翻译的鲁棒性，并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。

Mar, 2024

一种多用途的音频 - 视觉语料库，用于多模式波斯语语音识别：Arman-AV 数据集

本文提出一个新的适用于波斯语的多用途视听数据集，包括近 220 小时的视频，可用于自动语音识别、视听语音识别、说话人识别和自动口型阅读。同时，本数据集也是波斯语中第一个大规模口型阅读数据集。还提出了一种检测波斯语中视音素（一个音素的可视对应物）的技术，在相对于先前提出的视音素方案的基础上可以将口型阅读精度提高 7%。

Jan, 2023

CI-AVSR: 一份用于汽车指令识别的粤语音频视觉语音数据集

本文提出了一个新的中文粤语数据集 - Cantonese In-car Audio-Visual Speech Recognition (CI-AVSR)，用于研究车内指令识别。使用视觉和音频数据来识别汽车相关的指令，并采用常见的车内背景噪声进行数据增强来模拟真实环境，同时还实现了两种多模态基线以证明数据集的有效性和可行性。

Jan, 2022

跨语言视觉言语表征学习

本文探讨了跨语言自监督视觉表示学习，使用 Raw Audio-Visual Speech Encoders（RAVEn）框架对无标注的多语言数据进行预训练，然后用标记的转录 fine-tune 视觉模型，实验证明多语言模型优于单语言模型，多语言胜过英文预训练，使用相似的语言效果更好，而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。

Mar, 2023

面向多语言音视频问答

本文旨在将音视频问答（AVQA）扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集，涵盖了八种语言，并引入了 MERA 框架，该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向，并为未来的多语言 AVQA 提供参考基准。

Jun, 2024