本文提出一种基于 LSTM 网络的端到端视觉语音识别系统,同时学习从像素直接提取特征和分类,取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM(BLSTM)融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7%,在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5%。
Jan, 2017
本文介绍了利用神经网络从仅有的视觉信息(面部)中识别言语并实现唇读的方法,通过使用前馈和循环神经网络层(即 LSTM)堆叠成单一结构,并对其进行训练,成功地实现了比传统方法更高的识别准确性。
Jan, 2016
本文旨在发展最先进的口型阅读模型,分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型,并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。
Jun, 2018
本文提出了一种基于多级时空建模法的新型唇读模型,采用细粒度和中等粒度特征提取方法,结合时域注意理解整个输入序列,该模型在挑战的单词级唇读基准测试中表现出良好的效果。
Aug, 2019
本文提出了一种端到端的深度学习架构用于字级视觉语音识别,该方法结合了时空卷积、残量和双向长短时记忆网络,该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率,相较于当前的最先进方法有 6.8 的绝对提升,且在训练和测试过程中均未使用有关单词边界的信息。
Mar, 2017
本研究探讨利用 3D CNN 和光流输入的深度学习模型提高视频字幕的准确性,并证明采用光流输入单独或与灰度视频输入一起能进一步提高性能,在 LRW 数据集上实现了 5.3% 的绝对改进。
May, 2019
LipNet 是一个全新的、端到端的实时语音转文字模型,它能够将连续的视频帧序列准确地映射成文本,并能够同时学习时空视觉特征和序列模型,它在句子级别的听力阅读任务上表现出色,实现了 95.2%的精度,优于先前研究的单词级准确度。
Nov, 2016
该论文介绍了一种新的语音识别方法:LipFormer,它使用了视觉和标记反映的多模态特征,使得它能够对不同的嘴唇颜色和形状产生的可见变化具有鲁棒性,并且在未知的发言人上表现出出色的泛化性能。
Feb, 2023
本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型,该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型,并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。
Feb, 2018
本文介绍了一种基于视觉的、口型感知的三维口部表情重建方法,该方法不需要任何文本转录或对应音频,并使用 “lipread” 损失来指导拟合过程,以使三维重建的头部运动与原始视频片段的感知相似。此外,通过三个大规模数据集的详尽客观评估和两个基于网络的用户研究的主观评估,我们证明了该方法的有效性。
Jul, 2022