大规模视觉语音识别

Jul, 2018

Large-Scale Visual Speech Recognition

Brendan Shillingford, Yannis Assael, Matthew W. Hoffman, Thomas Paine, Cían Hughes...

TL;DR本文提出一个可扩展的开放词汇视觉语音识别方案，通过构建目前最大的视频对话集和一个设计的集成唇读系统，其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线，一个可扩展的深度神经网络，以将唇部视频映射到音素分布序列，并输出单词序列的生产级语音解码器，该系统以 40.9％的单词错误率成功应用在数据集上，与其他唇读方法相比更具有效性。

Abstract

This work presents a scalable solution to open-vocabulary visual speech recognition. To achieve this, we constructed the largest existing visual speech recognition dataset, consisting of pairs of text and video clips of faces speaking (3,886 hours of video). In tandem, we designed and trained an integrated →

visual speech recognition lipreading system deep neural network phonemes word error rate

发现论文，激发创造

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

LRW-1000：野外唇语识别自然分布大规模基准测试

本文介绍了一个自然分布的大型口型识别基准数据库 LRW-1000，该数据库包含来自 2000 多个个体说话者的 718,098 个样本，其中每个类都对应一个普通话单词的音节，同时评估了一些利用该数据集的典型口型识别方法和结果分析。

Oct, 2018

SynthVSR: 利用合成监督扩大视觉语音识别的规模

本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR，利用大规模合成数据进行半监督学习，在公开数据集上实现了最新的性能。

Mar, 2023

野外口唇阅读句子

本研究目的在于通过观察说话者的口型运动，并结合音频或不结合音频，识别出单词词组和句子。我们提出了一种 “看、听、关注和拼写”（WLAS）网络来学习将口腔运动视频转录为字符的方法，设计了一种课程学习策略来加速训练并减少过拟合，建立了一个视觉语音识别数据集 - “Lip Reading Sentences”（LRS）数据集，其中包含来自英国电视的超过 100,000 个自然语句，该方法优于以往所有标准嘴唇读取基准数据集的表现。

Nov, 2016

基于视觉注意力的子词级唇读技术

该研究提出了一种关注视觉嘴唇读取的独特挑战，采用定制的基于注意力和亚词单元的方法，构建视觉嘴唇读取模型和视觉语音检测模型，并在公共数据集上实现了当今最优秀的结果，甚至超过工业声音数据集训练模型大约一个数量级的数据。

Oct, 2021

借助视界构建更好的视觉语言表达和唇读能力

我们提出了一个新的方法，利用音素相似的嘴唇形状群体（发音单位）来提取更具辨别能力和鲁棒性的视频特征，从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明，我们的方法在字级和句级嘴唇识别，以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中，始终优于最先进的方法。相对最佳先前方法，该方法将嘴唇识别的单词错误率（WER）降低了 9.1%。

Jul, 2023

视频中基于单词的深度手语识别：一个新的大规模数据集和方法比较

本文介绍了一个新的大规模美国手语单词语义（WLASL）数据集，并实现了基于外观和人体姿态的 2 个模型，以及提出了一种新的基于姿态的时态图卷积网络（Pose-TGCN）方法，同时模拟人体姿态轨迹中的空间和时间依赖关系，为手语识别研究提供了一个有价值的基准实验平台。

Oct, 2019

用于自动唇读系统和迁移学习的多模式德语数据集

本文提出了 GLips 数据集，其中包含 25 万个公共可用的视频，用于面部讲话者的单词级别的唇语阅读，作者探究了唇语阅读是否具有语言无关的特征，以便可以利用数据集来提高唇语阅读模型。

Feb, 2022

借助多尺度视频和多编码器增强唇读能力

提出了一种改善自动唇读技术的方法，通过多尺度视频数据和多编码器来提取不同尺度的唇部特征，并在 ICME 2024 ChatCLR 挑战中取得了第二名的成绩，与官方基准相比字符错误率减少了 21.52%。

Apr, 2024

LRS3-TED: 用于视觉语音识别的大规模数据集

介绍一个包含 TED 演讲视频中的面部轨迹，字幕和单词对齐信息的大规模新型多模态数据集，适用于视觉和视听语音识别的研究。

Sep, 2018