端到端的多视角唇读

Sep, 2017

End-to-End Multi-View Lipreading

Stavros Petridis, Yujiang Wang, Zuwei Li, Maja Pantic

TL;DR本研究提出使用双向长短时记忆（BLSTM）网络的多视角口型识别系统，在直接从不同口型图像姿势中提取特征的基础上，同时学习多视角的视觉特征和语音分类。通过在 OuluVS2 数据库上进行测试，最佳三种视角模型较现有多视图最新性能提高 10.5％，最大分类精度为 96.9％。

Abstract

Non-frontal lip views contain useful information which can be used to enhance the performance of frontal view lipreading. However, the vast majority of recent lipreading works, including the deep learning approac

lipreading multi-view blstm networks visual speech classification ouluvs2 database

发现论文，激发创造

基于 LSTM 的端到端视觉语音识别

本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Jan, 2017

使用长短时记忆网络进行唇读

本文介绍了利用神经网络从仅有的视觉信息（面部）中识别言语并实现唇读的方法，通过使用前馈和循环神经网络层（即 LSTM）堆叠成单一结构，并对其进行训练，成功地实现了比传统方法更高的识别准确性。

Jan, 2016

深度唇语识别：模型比较和在线应用

本文旨在发展最先进的口型阅读模型，分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型，并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。

Jun, 2018

多粒度时空建模用于唇读

本文提出了一种基于多级时空建模法的新型唇读模型，采用细粒度和中等粒度特征提取方法，结合时域注意理解整个输入序列，该模型在挑战的单词级唇读基准测试中表现出良好的效果。

Aug, 2019

将 Residual Networks 与 LSTMs 组合用于唇语识别

本文提出了一种端到端的深度学习架构用于字级视觉语音识别，该方法结合了时空卷积、残量和双向长短时记忆网络，该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率，相较于当前的最先进方法有 6.8 的绝对提升，且在训练和测试过程中均未使用有关单词边界的信息。

Mar, 2017

利用两流深度三维卷积神经网络学习空间 - 时间特征进行唇语识别

本研究探讨利用 3D CNN 和光流输入的深度学习模型提高视频字幕的准确性，并证明采用光流输入单独或与灰度视频输入一起能进一步提高性能，在 LRW 数据集上实现了 5.3% 的绝对改进。

May, 2019

LipNet：端对端的句子级唇读

LipNet 是一个全新的、端到端的实时语音转文字模型，它能够将连续的视频帧序列准确地映射成文本，并能够同时学习时空视觉特征和序列模型，它在句子级别的听力阅读任务上表现出色，实现了 95.2％的精度，优于先前研究的单词级准确度。

Nov, 2016

LipFormer: 基于视觉地标变换器学习从未见过说话者的唇读

该论文介绍了一种新的语音识别方法：LipFormer，它使用了视觉和标记反映的多模态特征，使得它能够对不同的嘴唇颜色和形状产生的可见变化具有鲁棒性，并且在未知的发言人上表现出出色的泛化性能。

Feb, 2023

端到端音视频语音识别

本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Feb, 2018

从视频中感知语音的视觉三维面部表情重建

本文介绍了一种基于视觉的、口型感知的三维口部表情重建方法，该方法不需要任何文本转录或对应音频，并使用 “lipread” 损失来指导拟合过程，以使三维重建的头部运动与原始视频片段的感知相似。此外，通过三个大规模数据集的详尽客观评估和两个基于网络的用户研究的主观评估，我们证明了该方法的有效性。

Jul, 2022