我们能够从嘴唇以外的地方阅读言语吗？重新思考深度视觉言语识别中的 ROI 选择

Mar, 2020

我们能够从嘴唇以外的地方阅读言语吗？重新思考深度视觉言语识别中的 ROI 选择

Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech Recognition

Yuanhang Zhang, Shuang Yang, Jingyun Xiao, Shiguang Shan, Xilin Chen

TL;DR本文主要介绍了使用深度学习进行视觉语音识别研究的新进展，并对较为传统的自动唇读方法提出挑战。作者试图证明在读取到口唇之外的区域，如脸颊、全脸等位置的信息，对于提高 VSR 模型性能有明显的好处。同时，介绍了一种基于 Cutout 的简单而有效的方法，以更好地利用不同面部区域编码的信息。实验表明，这些更大的面部区域信息能有效提高 VSR 性能，为 VSR 社区带来新思考。

Abstract

Recent advances in deep learning have heightened interest among researchers in the field of visual speech recognition (VSR). Currently, most existing methods equate VSR with automatic lip reading, which attempts

visual speech recognition deep learning extraoral facial regions vsr models cutout

发现论文，激发创造

野外多语言视觉语音识别

本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Feb, 2022

基于视觉注意力的子词级唇读技术

该研究提出了一种关注视觉嘴唇读取的独特挑战，采用定制的基于注意力和亚词单元的方法，构建视觉嘴唇读取模型和视觉语音检测模型，并在公共数据集上实现了当今最优秀的结果，甚至超过工业声音数据集训练模型大约一个数量级的数据。

Oct, 2021

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

SynthVSR: 利用合成监督扩大视觉语音识别的规模

本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR，利用大规模合成数据进行半监督学习，在公开数据集上实现了最新的性能。

Mar, 2023

大规模视觉语音识别

本文提出一个可扩展的开放词汇视觉语音识别方案，通过构建目前最大的视频对话集和一个设计的集成唇读系统，其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线，一个可扩展的深度神经网络，以将唇部视频映射到音素分布序列，并输出单词序列的生产级语音解码器，该系统以 40.9％的单词错误率成功应用在数据集上，与其他唇读方法相比更具有效性。

Jul, 2018

VSR 模型是否具有 LRS3 之外的泛化能力？

通过创建名为 WildVSR 的新的视觉语音识别测试集，评估和分析现有的视觉语音识别模型对新测试数据的泛化能力，并发现相比于 LRS3 结果，公开可用的视觉语音识别模型在我们的测试集上表现明显下降，提示模型在无监督、更具挑战性的口型序列上泛化能力较差。我们公开了此新测试基准，以推动未来研究开发更加鲁棒的视觉语音识别模型。

Nov, 2023

从视频中感知语音的视觉三维面部表情重建

本文介绍了一种基于视觉的、口型感知的三维口部表情重建方法，该方法不需要任何文本转录或对应音频，并使用 “lipread” 损失来指导拟合过程，以使三维重建的头部运动与原始视频片段的感知相似。此外，通过三个大规模数据集的详尽客观评估和两个基于网络的用户研究的主观评估，我们证明了该方法的有效性。

Jul, 2022

野外口唇阅读句子

本研究目的在于通过观察说话者的口型运动，并结合音频或不结合音频，识别出单词词组和句子。我们提出了一种 “看、听、关注和拼写”（WLAS）网络来学习将口腔运动视频转录为字符的方法，设计了一种课程学习策略来加速训练并减少过拟合，建立了一个视觉语音识别数据集 - “Lip Reading Sentences”（LRS）数据集，其中包含来自英国电视的超过 100,000 个自然语句，该方法优于以往所有标准嘴唇读取基准数据集的表现。

Nov, 2016

Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别

基于 Lip2Vec 的视觉语音识别（VSR）模型通过学习先验模型，将嘴唇序列的编码潜在表示映射到对应的音频潜在表示，以实现有效的文本解码。利用现成的音频语音识别（ASR）模型将生成的音频表示解码为文本，该方法在 LRS3 数据集上实现了 26 的错误率（WER），并在 VoxCeleb 测试集上保持了合理的性能，为更灵活的口型阅读形式拉近了口语识别与视觉语音识别之间的性能差距。

Aug, 2023

适应说话者的端到端连续西班牙语视觉语音识别

利用西班牙 LIP-RTVE 数据库，本文研究了如何通过专门训练的端到端系统来改善语音识别质量，结果表明，通过演讲者适应，可以显著提高 VSR 系统的性能，并且即使只有有限的数据时，也可以达到与当前最先进技术相媲美的结果。

Nov, 2023