OLKAVS: 一个开放的大规模韩语音频 - 视觉语音数据集

Jan, 2023

OLKAVS: 一个开放的大规模韩语音频 - 视觉语音数据集

OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset

Jeongkyun Park, Jung-Wook Hwang, Kwanghee Choi, Seung-Hyun Lee, Jun Hwan Ahn...

TL;DR提出了韩文的开放式大规模多模音视频数据集（OLKAVS）及其对多模态研究的促进作用。

Abstract

Inspired by humans comprehending speech in a multi-modal manner, various audio-visual datasets have been constructed. However, most existing datasets focus on English, induce dependencies with various prediction models during →

audio-visual korean dataset speech recognition lip reading

发现论文，激发创造

MAVD：首个带深度信息的开放式大规模普通话视听数据集

这项工作旨在建立 MAVD，这是一个新的大规模普通话多模态语料库，包括由 64 名中国本土说话者发出的 12,484 个话语，其中包括深度信息，可用于评估音频视觉语音识别的有效性。

Jun, 2023

一种多用途的音频 - 视觉语料库，用于多模式波斯语语音识别：Arman-AV 数据集

本文提出一个新的适用于波斯语的多用途视听数据集，包括近 220 小时的视频，可用于自动语音识别、视听语音识别、说话人识别和自动口型阅读。同时，本数据集也是波斯语中第一个大规模口型阅读数据集。还提出了一种检测波斯语中视音素（一个音素的可视对应物）的技术，在相对于先前提出的视音素方案的基础上可以将口型阅读精度提高 7%。

Jan, 2023

ViSpeR: 多语言音视频语音识别

该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上，对音视频语音识别（AVSR）进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练，在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争力。该研究通过提供数据集和模型给研究社区，旨在为音视频语音识别领域的进一步研究和探索奠定基础。

May, 2024

XLAVS-R：跨语言音视频言语表征学习用于噪音鲁棒言语感知

基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型，在噪声环境下提高语音识别和翻译的鲁棒性，并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。

Mar, 2024

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

AVA-ActiveSpeaker: 一份用于活动说话人检测的音频 - 视觉数据集

本文介绍了 AVA-ActiveSpeaker 数据集，并提出了一种新的视听方法用于活跃演讲者检测，并分析其性能和数据集的贡献。

Jan, 2019

YODAS: 面向 YouTube 的音频和语音数据集

本研究介绍了 YODAS（YouTube 定向音频和语音数据集），这是一个包含 100 多种语言中超过 500,000 小时语音数据的大规模多语言数据集，数据来源于已标记和未标记的 YouTube 语音数据集。我们介绍了 YODAS 的收集方法，并提供了对数据集内的语音和文本的全面分析。最后，我们描述了在前 15 种语言上的语音识别基线。

Jun, 2024

MLS: 一个大规模的多语言语音研究数据集

本文介绍了 Multilingual LibriSpeech（MLS）数据集，这是一个大型的多语言语音研究语料库，包括 8 种语言，以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供，我们相信它将为 ASR 和 TTS 研究开辟新的途径。

Dec, 2020

M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

通过提供高质量的人工注释，本文提出了一个全新的多模态、多类型和多用途的音频 - 视频学术讲座数据集，旨在支持多种音视频识别和理解任务，从而展示了 M^3AV 数据集的多样性和挑战性。

Mar, 2024

VAST: 视听字幕文本全模态基础模型与数据集

本文利用自动生成的大规模全模态视频字幕数据集 VAST-27M 来探索多模态视频轨道（包括视觉、音频和字幕）与文本之间的联系，训练出了一种全模态视频 - 文本初始模型 VAST，该模型可以感知和处理视频中的多种模式，并且在各种跨模态基准测试中获得了 22 项新的最先进结果。

May, 2023