大规模视觉语音识别
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC,我们建立的模型在实验中的表现均超过了以前的相关工作。
Sep, 2018
本文介绍了一个自然分布的大型口型识别基准数据库 LRW-1000,该数据库包含来自 2000 多个个体说话者的 718,098 个样本,其中每个类都对应一个普通话单词的音节,同时评估了一些利用该数据集的典型口型识别方法和结果分析。
Oct, 2018
本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR,利用大规模合成数据进行半监督学习,在公开数据集上实现了最新的性能。
Mar, 2023
本研究目的在于通过观察说话者的口型运动,并结合音频或不结合音频,识别出单词词组和句子。我们提出了一种 “看、听、关注和拼写”(WLAS)网络来学习将口腔运动视频转录为字符的方法,设计了一种课程学习策略来加速训练并减少过拟合,建立了一个视觉语音识别数据集 - “Lip Reading Sentences”(LRS)数据集,其中包含来自英国电视的超过 100,000 个自然语句,该方法优于以往所有标准嘴唇读取基准数据集的表现。
Nov, 2016
该研究提出了一种关注视觉嘴唇读取的独特挑战,采用定制的基于注意力和亚词单元的方法,构建视觉嘴唇读取模型和视觉语音检测模型,并在公共数据集上实现了当今最优秀的结果,甚至超过工业声音数据集训练模型大约一个数量级的数据。
Oct, 2021
我们提出了一个新的方法,利用音素相似的嘴唇形状群体(发音单位)来提取更具辨别能力和鲁棒性的视频特征,从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明,我们的方法在字级和句级嘴唇识别,以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中,始终优于最先进的方法。相对最佳先前方法,该方法将嘴唇识别的单词错误率(WER)降低了 9.1%。
Jul, 2023
本文介绍了一个新的大规模美国手语单词语义(WLASL)数据集,并实现了基于外观和人体姿态的 2 个模型,以及提出了一种新的基于姿态的时态图卷积网络(Pose-TGCN)方法,同时模拟人体姿态轨迹中的空间和时间依赖关系,为手语识别研究提供了一个有价值的基准实验平台。
Oct, 2019
本文提出了 GLips 数据集,其中包含 25 万个公共可用的视频,用于面部讲话者的单词级别的唇语阅读,作者探究了唇语阅读是否具有语言无关的特征,以便可以利用数据集来提高唇语阅读模型。
Feb, 2022
提出了一种改善自动唇读技术的方法,通过多尺度视频数据和多编码器来提取不同尺度的唇部特征,并在 ICME 2024 ChatCLR 挑战中取得了第二名的成绩,与官方基准相比字符错误率减少了 21.52%。
Apr, 2024