基于 LSTM 的端到端视觉语音识别

Jan, 2017

End-To-End Visual Speech Recognition With LSTMs

Stavros Petridis, Zuwei Li, Maja Pantic

TL;DR本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Abstract

Traditional visual speech recognition systems consist of two stages, feature extraction and classification. Recently, several deep learning approaches have been presented which automatically extract features from

visual speech recognition deep learning end-to-end lstm networks feature extraction

发现论文，激发创造

端到端的多视角唇读

本研究提出使用双向长短时记忆（BLSTM）网络的多视角口型识别系统，在直接从不同口型图像姿势中提取特征的基础上，同时学习多视角的视觉特征和语音分类。通过在 OuluVS2 数据库上进行测试，最佳三种视角模型较现有多视图最新性能提高 10.5％，最大分类精度为 96.9％。

Sep, 2017

将 Residual Networks 与 LSTMs 组合用于唇语识别

本文提出了一种端到端的深度学习架构用于字级视觉语音识别，该方法结合了时空卷积、残量和双向长短时记忆网络，该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率，相较于当前的最先进方法有 6.8 的绝对提升，且在训练和测试过程中均未使用有关单词边界的信息。

Mar, 2017

端到端音视频语音识别

本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Feb, 2018

使用长短时记忆网络进行唇读

本文介绍了利用神经网络从仅有的视觉信息（面部）中识别言语并实现唇读的方法，通过使用前馈和循环神经网络层（即 LSTM）堆叠成单一结构，并对其进行训练，成功地实现了比传统方法更高的识别准确性。

Jan, 2016

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016

基于 PCA 网络和 LSTM 的同步 GMM-HMM 系统中的视觉语音识别

本文研究了如何使用图像获得人类言语的信息，使用主成分分析 (PCA) 和深度学习的方法，通过卷积神经网络 (CNN) 和使用长短时记忆 (LSTM) 的循环神经网络 (RNN) 对图像进行分析并提取出空间时间特征，进而在语音识别任务中展现出较高的准确率。

Oct, 2017

基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统

该研究致力于开发一种自动非侵入式系统，用于预测语音可懂度水平，研究结果显示采用长期短期记忆（LSTM）网络以及对数 - 梅尔频谱图作为输入特征的 LSTM 架构通过引入简单的注意力机制，能够确定任务中更为相关的帧，从而优于基于支持向量机（SVM）和手工特征、基于均值池化的 LSTM 系统。

Feb, 2024

利用两流深度三维卷积神经网络学习空间 - 时间特征进行唇语识别

本研究探讨利用 3D CNN 和光流输入的深度学习模型提高视频字幕的准确性，并证明采用光流输入单独或与灰度视频输入一起能进一步提高性能，在 LRW 数据集上实现了 5.3% 的绝对改进。

May, 2019

深度唇语识别：模型比较和在线应用

本文旨在发展最先进的口型阅读模型，分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型，并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。

Jun, 2018

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017