利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

Sep, 2023

利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

Visual Speech Recognition for Low-resource Languages with Automatic Labels From Whisper Model

Jeong Hun Yeo, Minsu Kim, Shinji Watanabe, Yong Man Ro

TL;DR该论文提出了一种面向多种语言特别是对于有限标注数据的低资源语言的强大的视觉语音识别（VSR）方法，通过使用 Whisper 模型，它可以进行语言识别和基于音频的语音识别，从而在没有人工注释的情况下获得与人工注释标签相似的 VSR 性能，并提供了大规模无标注多语言数据库的自动标签。

Abstract

This paper proposes a powerful visual speech recognition (VSR) method for multiple languages, especially for low-resource languages that have a limited number of labeled data. Different from previous methods that

visual speech recognition low-resource languages whisper model automatic labels multilingual databases

发现论文，激发创造

野外多语言视觉语音识别

本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Feb, 2022

LiteVSR：通过学习无标签数据的语音表征实现高效的视觉语音识别

该论文提出了一种新颖的资源高效方法，利用任何训练过的自动语音识别（ASR）模型生成的语音表示来进行视觉语音识别（VSR）。通过远离最近文献中流行的资源密集型趋势，我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识，在标准的 VSR 基准测试中以极少的资源利用实现竞争性的性能。仅使用未标记的音频 - 视觉数据，我们的基准模型在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率（WER）。在有限标记数据的微调之后，词错误率降至 35%（LRS2）和 45.7%（LRS3）。我们的模型可以在几天内在单个消费级 GPU 上进行训练，并能够在老旧硬件上实时进行端到端的 VSR，为实现更易于获取和高效利用资源的 VSR 方法提供了一个路径。

Dec, 2023

ViSpeR: 多语言音视频语音识别

该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上，对音视频语音识别（AVSR）进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练，在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争力。该研究通过提供数据集和模型给研究社区，旨在为音视频语音识别领域的进一步研究和探索奠定基础。

May, 2024

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

AKVSR: 基于压缩预训练模型的音频知识增强的视觉语音识别

提出了一种基于音频知识的视觉语音识别框架（AKVSR），通过使用音频模态来补充视觉模态中不足的语音信息，利用预训练的大规模音频模型编码丰富的音频知识，并通过量化舍弃非语言信息从而将语言信息保存在紧凑的音频存储器中，并包括能够从紧凑的音频存储器中找到最佳匹配音频特征的音频桥接模块，使得训练过程不需要音频输入，通过广泛的实验验证了该方法的有效性，并在广泛使用的数据集 LRS2 和 LRS3 上取得了最新的最佳表现。

Aug, 2023

SynthVSR: 利用合成监督扩大视觉语音识别的规模

本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR，利用大规模合成数据进行半监督学习，在公开数据集上实现了最新的性能。

Mar, 2023

通过多标签分类实现有效的口语语言识别

本文主要讲述了如何利用卷积神经网络构建高效的口语语种识别模型，并在训练时采用多标签的方式来应对非目标语种的识别，实验结果表明，该模型相比当前最先进的方法在速度上有数量级的提升，并且在多标签分类任务中更加稳健。

Jun, 2023

无监督自动语音识别：综述

这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Jun, 2021

通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别

该研究探索了使用单个模型的句子级多语种视觉语音识别，通过将视觉语音单元离散化作为输入，基于自监督视觉语音模型从 5,512 小时的多语种音频 - 视觉数据上进行训练，结合曲线学习改善语音识别中的视觉信息缺失，实现了与以往特定语言视觉语音识别模型相当的性能。

Jan, 2024