本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC,我们建立的模型在实验中的表现均超过了以前的相关工作。
Sep, 2018
本研究目的在于通过观察说话者的口型运动,并结合音频或不结合音频,识别出单词词组和句子。我们提出了一种 “看、听、关注和拼写”(WLAS)网络来学习将口腔运动视频转录为字符的方法,设计了一种课程学习策略来加速训练并减少过拟合,建立了一个视觉语音识别数据集 - “Lip Reading Sentences”(LRS)数据集,其中包含来自英国电视的超过 100,000 个自然语句,该方法优于以往所有标准嘴唇读取基准数据集的表现。
Nov, 2016
本文提出一个可扩展的开放词汇视觉语音识别方案,通过构建目前最大的视频对话集和一个设计的集成唇读系统,其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线,一个可扩展的深度神经网络,以将唇部视频映射到音素分布序列,并输出单词序列的生产级语音解码器,该系统以 40.9%的单词错误率成功应用在数据集上,与其他唇读方法相比更具有效性。
Jul, 2018
基于 Lip2Vec 的视觉语音识别(VSR)模型通过学习先验模型,将嘴唇序列的编码潜在表示映射到对应的音频潜在表示,以实现有效的文本解码。利用现成的音频语音识别(ASR)模型将生成的音频表示解码为文本,该方法在 LRS3 数据集上实现了 26 的错误率(WER),并在 VoxCeleb 测试集上保持了合理的性能,为更灵活的口型阅读形式拉近了口语识别与视觉语音识别之间的性能差距。
Aug, 2023
本文旨在发展最先进的口型阅读模型,分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型,并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。
Jun, 2018
提出了一种新颖的嘴唇阅读中的说话人适应方法,根据嘴唇运动中浅层和深层的特点分别对其进行处理,通过自动学习说话者的独特特征以提高鲁棒的嘴唇阅读。
Oct, 2023
本文提出了一种端到端的深度学习架构用于字级视觉语音识别,该方法结合了时空卷积、残量和双向长短时记忆网络,该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率,相较于当前的最先进方法有 6.8 的绝对提升,且在训练和测试过程中均未使用有关单词边界的信息。
Mar, 2017
本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别,通过优化模型设计和参数, 加入额外任务,并增加数据扩充,提高模型性能,实现在不同语言下超越以前的所有基于公开数据集的模型表现,并比训练基于非公开数据集的模型表现更好。
Feb, 2022
我们提出了一个新的方法,利用音素相似的嘴唇形状群体(发音单位)来提取更具辨别能力和鲁棒性的视频特征,从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明,我们的方法在字级和句级嘴唇识别,以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中,始终优于最先进的方法。相对最佳先前方法,该方法将嘴唇识别的单词错误率(WER)降低了 9.1%。
Jul, 2023
本文提出了一种 AttnWav2Lip 模型,该模型将空间注意和通道注意模块纳入到口型同步策略中,并着重于唇部区域重构,从而实现了更精准的口型同步,通过在多个基准唇同步数据集上的实验,表明该模型展现了超越基线的良好表现。
Mar, 2022