将 Residual Networks 与 LSTMs 组合用于唇语识别
本文介绍了利用神经网络从仅有的视觉信息(面部)中识别言语并实现唇读的方法,通过使用前馈和循环神经网络层(即 LSTM)堆叠成单一结构,并对其进行训练,成功地实现了比传统方法更高的识别准确性。
Jan, 2016
本文旨在发展最先进的口型阅读模型,分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型,并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。
Jun, 2018
本文提出一种基于 LSTM 网络的端到端视觉语音识别系统,同时学习从像素直接提取特征和分类,取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM(BLSTM)融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7%,在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5%。
Jan, 2017
本研究旨在改进当前用于野外孤立词识别的最先进模型,首先通过引入 TCN 替代 BGRU 层,简化训练过程,其次,提出变长度数据增强技术,最终在两个最大的公开数据集上展示了 1.2% 和 3.2% 的性能增益,这是最新的最先进性能。
Jan, 2020
本文提出了一个基于深度学习的框架,用于提取包含与单词识别相关的嘴部信息的单词嵌入。该模型包括由时空卷积层、残差网络和双向 LSTM 组成;经过训练后,其在视觉语音识别中表现出了超越现有技术的优势。同时,实验证明了该模型即使在未被训练到的目标单词上,也有可行的表现。
Oct, 2017
LipNet 是一个全新的、端到端的实时语音转文字模型,它能够将连续的视频帧序列准确地映射成文本,并能够同时学习时空视觉特征和序列模型,它在句子级别的听力阅读任务上表现出色,实现了 95.2%的精度,优于先前研究的单词级准确度。
Nov, 2016
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC,我们建立的模型在实验中的表现均超过了以前的相关工作。
Sep, 2018
该研究提出了一种关注视觉嘴唇读取的独特挑战,采用定制的基于注意力和亚词单元的方法,构建视觉嘴唇读取模型和视觉语音检测模型,并在公共数据集上实现了当今最优秀的结果,甚至超过工业声音数据集训练模型大约一个数量级的数据。
Oct, 2021
本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。
Oct, 2016