LRS3-TED: 用于视觉语音识别的大规模数据集
本研究提出了一种基于循环神经网络转录者(RNN-T)架构的大规模视音频语音识别系统,并通过比较语音,视觉和视听系统在两个大词汇测试集上的表现,以及在带噪声和重叠的人工干扰的数据上的表现,突显了视觉模态的贡献。据我们所知,我们的系统显著改善了现有技术在公开数据集 LRS3-TED 上的表现。
Nov, 2019
本文介绍 TED-LIUM 发布的第三个语音识别数据集,主要是为了增加训练声学模型的可用数据,比 TED-LIUM 2 多出一倍以上的语料。研究表明,相比 2012 年和 2014 年发布的数据集,通过提高训练数据量,对于端到端的 ASR 系统更为有效。同时,本文还提出了根据说话人自适应进行实验的两组 TED-LIUM release 3 corpus 数据分配计划,并且将其免费提供给研究社区。
May, 2018
本文提出一个可扩展的开放词汇视觉语音识别方案,通过构建目前最大的视频对话集和一个设计的集成唇读系统,其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线,一个可扩展的深度神经网络,以将唇部视频映射到音素分布序列,并输出单词序列的生产级语音解码器,该系统以 40.9%的单词错误率成功应用在数据集上,与其他唇读方法相比更具有效性。
Jul, 2018
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC,我们建立的模型在实验中的表现均超过了以前的相关工作。
Sep, 2018
本文提出使用视频变压器替换三维卷积进行视觉特征提取,从而提高音频 - 视觉自动语音识别的性能,并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明,该方法在 LRS3-TED 上取得了国际领先的性能表现。另外,在多人音频 - 视觉自动语音识别方面,该方法相对于三维卷积实现了平均降低 2% 的性能损失。
Jan, 2022
本文介绍了一个半自动注释的音视频数据库,用于处理自由自然的西班牙语,提供了来自西班牙电视的 13 小时数据。此外,报告了基于隐马尔可夫模型的发言人相关和发言人无关情景的基准结果,这是一种在语音技术领域广泛使用的传统范式。
Nov, 2023
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023
本文介绍了 Multilingual LibriSpeech(MLS)数据集,这是一个大型的多语言语音研究语料库,包括 8 种语言,以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供,我们相信它将为 ASR 和 TTS 研究开辟新的途径。
Dec, 2020
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
本文提出了 GLips 数据集,其中包含 25 万个公共可用的视频,用于面部讲话者的单词级别的唇语阅读,作者探究了唇语阅读是否具有语言无关的特征,以便可以利用数据集来提高唇语阅读模型。
Feb, 2022