OLKAVS: 一个开放的大规模韩语音频 - 视觉语音数据集
这项工作旨在建立 MAVD,这是一个新的大规模普通话多模态语料库,包括由 64 名中国本土说话者发出的 12,484 个话语,其中包括深度信息,可用于评估音频视觉语音识别的有效性。
Jun, 2023
本文提出一个新的适用于波斯语的多用途视听数据集,包括近 220 小时的视频,可用于自动语音识别、视听语音识别、说话人识别和自动口型阅读。同时,本数据集也是波斯语中第一个大规模口型阅读数据集。还提出了一种检测波斯语中视音素(一个音素的可视对应物)的技术,在相对于先前提出的视音素方案的基础上可以将口型阅读精度提高 7%。
Jan, 2023
该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上,对音视频语音识别(AVSR)进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练,在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争力。该研究通过提供数据集和模型给研究社区,旨在为音视频语音识别领域的进一步研究和探索奠定基础。
May, 2024
基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型,在噪声环境下提高语音识别和翻译的鲁棒性,并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。
Mar, 2024
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023
本文介绍了 AVA-ActiveSpeaker 数据集,并提出了一种新的视听方法用于活跃演讲者检测,并分析其性能和数据集的贡献。
Jan, 2019
本研究介绍了 YODAS(YouTube 定向音频和语音数据集),这是一个包含 100 多种语言中超过 500,000 小时语音数据的大规模多语言数据集,数据来源于已标记和未标记的 YouTube 语音数据集。我们介绍了 YODAS 的收集方法,并提供了对数据集内的语音和文本的全面分析。最后,我们描述了在前 15 种语言上的语音识别基线。
Jun, 2024
本文介绍了 Multilingual LibriSpeech(MLS)数据集,这是一个大型的多语言语音研究语料库,包括 8 种语言,以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供,我们相信它将为 ASR 和 TTS 研究开辟新的途径。
Dec, 2020
通过提供高质量的人工注释,本文提出了一个全新的多模态、多类型和多用途的音频 - 视频学术讲座数据集,旨在支持多种音视频识别和理解任务,从而展示了 M^3AV 数据集的多样性和挑战性。
Mar, 2024
本文利用自动生成的大规模全模态视频字幕数据集 VAST-27M 来探索多模态视频轨道(包括视觉、音频和字幕)与文本之间的联系,训练出了一种全模态视频 - 文本初始模型 VAST,该模型可以感知和处理视频中的多种模式,并且在各种跨模态基准测试中获得了 22 项新的最先进结果。
May, 2023