使用长短时记忆网络进行唇读

Jan, 2016

Lipreading with Long Short-Term Memory

Michael Wand, Jan Koutník, Jürgen Schmidhuber

TL;DR本文介绍了利用神经网络从仅有的视觉信息（面部）中识别言语并实现唇读的方法，通过使用前馈和循环神经网络层（即 LSTM）堆叠成单一结构，并对其进行训练，成功地实现了比传统方法更高的识别准确性。

Abstract

lipreading, i.e. speech recognition from visual-only recordings of a speaker's face, can be achieved with a processing pipeline based sole

lipreading neural networks speech recognition visual-only recordings long short-term memory

发现论文，激发创造

将 Residual Networks 与 LSTMs 组合用于唇语识别

本文提出了一种端到端的深度学习架构用于字级视觉语音识别，该方法结合了时空卷积、残量和双向长短时记忆网络，该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率，相较于当前的最先进方法有 6.8 的绝对提升，且在训练和测试过程中均未使用有关单词边界的信息。

Mar, 2017

深度唇语识别：模型比较和在线应用

本文旨在发展最先进的口型阅读模型，分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型，并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。

Jun, 2018

LipNet：端对端的句子级唇读

LipNet 是一个全新的、端到端的实时语音转文字模型，它能够将连续的视频帧序列准确地映射成文本，并能够同时学习时空视觉特征和序列模型，它在句子级别的听力阅读任务上表现出色，实现了 95.2％的精度，优于先前研究的单词级准确度。

Nov, 2016

基于长短期记忆的循环神经网络结构用于大词汇语音识别

本文介绍了一种基于 LSTM 的循环神经网络架构，用于训练大词汇量的语音识别声学模型，与传统的 RNN 和深度神经网络进行了比较。结果表明，LSTM 模型收敛速度快，对于相对较小的模型具有最先进的语音识别表现。

Feb, 2014

基于 LSTM 的端到端视觉语音识别

本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Jan, 2017

使用域对抗训练提高无需说话者口型识别

本文介绍了一种唇读系统，即一种只使用视觉特征的语音识别系统，它利用了领域对抗训练等技术以实现说话人无关性，用于优化由一系列前馈神经网络和 LSTM 递归神经网络构成的唇读者，并实现了端到端可训练的系统，只需要少量带有未转录目标数据的 frames 即可在目标说话人的语音识别准确率上显著提高约 40％。

Aug, 2017

多粒度时空建模用于唇读

本文提出了一种基于多级时空建模法的新型唇读模型，采用细粒度和中等粒度特征提取方法，结合时域注意理解整个输入序列，该模型在挑战的单词级唇读基准测试中表现出良好的效果。

Aug, 2019

基于长短时记忆的深度循环神经网络构建及其在大词汇语音识别中的应用

本研究针对多 GPU 设备下，探讨了基于深度 LSTM 的语音识别任务，通过构建深度循环神经网络来提升深层次模型效率，实验结果表明深度 LSTM 网络的性能优于浅层次模型。

Oct, 2014

基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统

该研究致力于开发一种自动非侵入式系统，用于预测语音可懂度水平，研究结果显示采用长期短期记忆（LSTM）网络以及对数 - 梅尔频谱图作为输入特征的 LSTM 架构通过引入简单的注意力机制，能够确定任务中更为相关的帧，从而优于基于支持向量机（SVM）和手工特征、基于均值池化的 LSTM 系统。

Feb, 2024

端到端的多视角唇读

本研究提出使用双向长短时记忆（BLSTM）网络的多视角口型识别系统，在直接从不同口型图像姿势中提取特征的基础上，同时学习多视角的视觉特征和语音分类。通过在 OuluVS2 数据库上进行测试，最佳三种视角模型较现有多视图最新性能提高 10.5％，最大分类精度为 96.9％。

Sep, 2017