野外多语言视觉语音识别

Feb, 2022

Visual Speech Recognition for Multiple Languages in the Wild

Pingchuan Ma, Stavros Petridis, Maja Pantic

TL;DR本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Abstract

visual speech recognition (VSR) aims to recognize the content of speech based on lip movements, without relying on the audio stream. Advances in deep learning and the availability of large audio-visual datasets have led to the development of much more accurate and robust VSR models tha

visual speech recognition deep learning model design hyperparameter optimization data augmentation

发现论文，激发创造

利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

该论文提出了一种面向多种语言特别是对于有限标注数据的低资源语言的强大的视觉语音识别（VSR）方法，通过使用 Whisper 模型，它可以进行语言识别和基于音频的语音识别，从而在没有人工注释的情况下获得与人工注释标签相似的 VSR 性能，并提供了大规模无标注多语言数据库的自动标签。

Sep, 2023

SynthVSR: 利用合成监督扩大视觉语音识别的规模

本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR，利用大规模合成数据进行半监督学习，在公开数据集上实现了最新的性能。

Mar, 2023

AKVSR: 基于压缩预训练模型的音频知识增强的视觉语音识别

提出了一种基于音频知识的视觉语音识别框架（AKVSR），通过使用音频模态来补充视觉模态中不足的语音信息，利用预训练的大规模音频模型编码丰富的音频知识，并通过量化舍弃非语言信息从而将语言信息保存在紧凑的音频存储器中，并包括能够从紧凑的音频存储器中找到最佳匹配音频特征的音频桥接模块，使得训练过程不需要音频输入，通过广泛的实验验证了该方法的有效性，并在广泛使用的数据集 LRS2 和 LRS3 上取得了最新的最佳表现。

Aug, 2023

LiteVSR：通过学习无标签数据的语音表征实现高效的视觉语音识别

该论文提出了一种新颖的资源高效方法，利用任何训练过的自动语音识别（ASR）模型生成的语音表示来进行视觉语音识别（VSR）。通过远离最近文献中流行的资源密集型趋势，我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识，在标准的 VSR 基准测试中以极少的资源利用实现竞争性的性能。仅使用未标记的音频 - 视觉数据，我们的基准模型在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率（WER）。在有限标记数据的微调之后，词错误率降至 35%（LRS2）和 45.7%（LRS3）。我们的模型可以在几天内在单个消费级 GPU 上进行训练，并能够在老旧硬件上实时进行端到端的 VSR，为实现更易于获取和高效利用资源的 VSR 方法提供了一个路径。

Dec, 2023

SyncVSR: 数据高效的视觉语音识别与端到端跨模态音频令牌同步

Visual Speech Recognition (VSR) aims to interpret spoken content from visual cues, and SyncVSR presents an end-to-end learning framework that synchronizes visual representation with acoustic data, achieving state-of-the-art results while reducing data usage by up to ninefold.

Jun, 2024

自动说话人无关的视觉语音识别：全面调查

本研究调查了 1990 年至 2023 年间 Speaker-independent VSR 系统的演变，重点分析了数据集及预处理技术的应用，强调了发展端对端管道的必要性，同时指出了当前研究的局限性和未来方向。

Jun, 2023

ViSpeR: 多语言音视频语音识别

该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上，对音视频语音识别（AVSR）进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练，在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争力。该研究通过提供数据集和模型给研究社区，旨在为音视频语音识别领域的进一步研究和探索奠定基础。

May, 2024

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别

基于 Lip2Vec 的视觉语音识别（VSR）模型通过学习先验模型，将嘴唇序列的编码潜在表示映射到对应的音频潜在表示，以实现有效的文本解码。利用现成的音频语音识别（ASR）模型将生成的音频表示解码为文本，该方法在 LRS3 数据集上实现了 26 的错误率（WER），并在 VoxCeleb 测试集上保持了合理的性能，为更灵活的口型阅读形式拉近了口语识别与视觉语音识别之间的性能差距。

Aug, 2023

我们能够从嘴唇以外的地方阅读言语吗？重新思考深度视觉言语识别中的 ROI 选择

本文主要介绍了使用深度学习进行视觉语音识别研究的新进展，并对较为传统的自动唇读方法提出挑战。作者试图证明在读取到口唇之外的区域，如脸颊、全脸等位置的信息，对于提高 VSR 模型性能有明显的好处。同时，介绍了一种基于 Cutout 的简单而有效的方法，以更好地利用不同面部区域编码的信息。实验表明，这些更大的面部区域信息能有效提高 VSR 性能，为 VSR 社区带来新思考。

Mar, 2020