深度唇语识别：模型比较和在线应用

Jun, 2018

深度唇语识别：模型比较和在线应用

Deep Lip Reading: a comparison of models and an online application

Triantafyllos Afouras, Joon Son Chung, Andrew Zisserman

TL;DR本文旨在发展最先进的口型阅读模型，分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型，并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。

Abstract

The goal of this paper is to develop state-of-the-art models for lip reading -- visual speech recognition. We develop three architectures and compare their accuracy and training times: (i) a →

lip reading visual speech recognition recurrent model fully convolutional model transformer model

发现论文，激发创造

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

将 Residual Networks 与 LSTMs 组合用于唇语识别

本文提出了一种端到端的深度学习架构用于字级视觉语音识别，该方法结合了时空卷积、残量和双向长短时记忆网络，该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率，相较于当前的最先进方法有 6.8 的绝对提升，且在训练和测试过程中均未使用有关单词边界的信息。

Mar, 2017

使用长短时记忆网络进行唇读

本文介绍了利用神经网络从仅有的视觉信息（面部）中识别言语并实现唇读的方法，通过使用前馈和循环神经网络层（即 LSTM）堆叠成单一结构，并对其进行训练，成功地实现了比传统方法更高的识别准确性。

Jan, 2016

LipNet：端对端的句子级唇读

LipNet 是一个全新的、端到端的实时语音转文字模型，它能够将连续的视频帧序列准确地映射成文本，并能够同时学习时空视觉特征和序列模型，它在句子级别的听力阅读任务上表现出色，实现了 95.2％的精度，优于先前研究的单词级准确度。

Nov, 2016

使用时间卷积网络进行唇读

本研究旨在改进当前用于野外孤立词识别的最先进模型，首先通过引入 TCN 替代 BGRU 层，简化训练过程，其次，提出变长度数据增强技术，最终在两个最大的公开数据集上展示了 1.2% 和 3.2% 的性能增益，这是最新的最先进性能。

Jan, 2020

多粒度时空建模用于唇读

本文提出了一种基于多级时空建模法的新型唇读模型，采用细粒度和中等粒度特征提取方法，结合时域注意理解整个输入序列，该模型在挑战的单词级唇读基准测试中表现出良好的效果。

Aug, 2019

基于视觉注意力的子词级唇读技术

该研究提出了一种关注视觉嘴唇读取的独特挑战，采用定制的基于注意力和亚词单元的方法，构建视觉嘴唇读取模型和视觉语音检测模型，并在公共数据集上实现了当今最优秀的结果，甚至超过工业声音数据集训练模型大约一个数量级的数据。

Oct, 2021

端到端的多视角唇读

本研究提出使用双向长短时记忆（BLSTM）网络的多视角口型识别系统，在直接从不同口型图像姿势中提取特征的基础上，同时学习多视角的视觉特征和语音分类。通过在 OuluVS2 数据库上进行测试，最佳三种视角模型较现有多视图最新性能提高 10.5％，最大分类精度为 96.9％。

Sep, 2017

野外口唇阅读句子

本研究目的在于通过观察说话者的口型运动，并结合音频或不结合音频，识别出单词词组和句子。我们提出了一种 “看、听、关注和拼写”（WLAS）网络来学习将口腔运动视频转录为字符的方法，设计了一种课程学习策略来加速训练并减少过拟合，建立了一个视觉语音识别数据集 - “Lip Reading Sentences”（LRS）数据集，其中包含来自英国电视的超过 100,000 个自然语句，该方法优于以往所有标准嘴唇读取基准数据集的表现。

Nov, 2016

基于 LSTM 的端到端视觉语音识别

本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Jan, 2017