LRW-1000:野外唇语识别自然分布大规模基准测试
本文提出一个可扩展的开放词汇视觉语音识别方案,通过构建目前最大的视频对话集和一个设计的集成唇读系统,其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线,一个可扩展的深度神经网络,以将唇部视频映射到音素分布序列,并输出单词序列的生产级语音解码器,该系统以 40.9%的单词错误率成功应用在数据集上,与其他唇读方法相比更具有效性。
Jul, 2018
本文提出了 GLips 数据集,其中包含 25 万个公共可用的视频,用于面部讲话者的单词级别的唇语阅读,作者探究了唇语阅读是否具有语言无关的特征,以便可以利用数据集来提高唇语阅读模型。
Feb, 2022
本研究目的在于通过观察说话者的口型运动,并结合音频或不结合音频,识别出单词词组和句子。我们提出了一种 “看、听、关注和拼写”(WLAS)网络来学习将口腔运动视频转录为字符的方法,设计了一种课程学习策略来加速训练并减少过拟合,建立了一个视觉语音识别数据集 - “Lip Reading Sentences”(LRS)数据集,其中包含来自英国电视的超过 100,000 个自然语句,该方法优于以往所有标准嘴唇读取基准数据集的表现。
Nov, 2016
提供了一个新的有着 24.4 万视频和约 1800 名演讲者的真实情境下的波斯语单词级别的唇语数据集,并使用 AV-HuBERT 模型进行特征提取,该方法在我们的数据集上获得了显著更好的性能。
Apr, 2023
WenetSpeech 是当前最大的开源普通话语音语料库,其包含 10000 小时以上高质量语音数据、2400 小时弱标注语音数据以及大约 10000 小时无标注语音数据,以及采集自多个场景下的数据,采用 OCR 及高质量 ASR 转录进行语音文本对齐,利用自研的端到端标签错误检测方法进一步筛选数据后,提供了工具集如 Kaldi、ESPnet 等,并基于三个不同测试集对其进行了基准测试。
Oct, 2021
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC,我们建立的模型在实验中的表现均超过了以前的相关工作。
Sep, 2018
本文介绍了一个新的大规模美国手语单词语义(WLASL)数据集,并实现了基于外观和人体姿态的 2 个模型,以及提出了一种新的基于姿态的时态图卷积网络(Pose-TGCN)方法,同时模拟人体姿态轨迹中的空间和时间依赖关系,为手语识别研究提供了一个有价值的基准实验平台。
Oct, 2019
该研究提出了一种关注视觉嘴唇读取的独特挑战,采用定制的基于注意力和亚词单元的方法,构建视觉嘴唇读取模型和视觉语音检测模型,并在公共数据集上实现了当今最优秀的结果,甚至超过工业声音数据集训练模型大约一个数量级的数据。
Oct, 2021
本文提出了一个包括 25,000 个有注释视频的美国手语数据集,通过 I3D 架构的应用,实现了对 1000 个手势的无限制语境下的识别。
Dec, 2018