MAVD：首个带深度信息的开放式大规模普通话视听数据集

Jun, 2023

MAVD：首个带深度信息的开放式大规模普通话视听数据集

MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information

Jianrong Wang, Yuchen Huo, Li Liu, Tianyi Xu, Qi Li...

TL;DR这项工作旨在建立 MAVD，这是一个新的大规模普通话多模态语料库，包括由 64 名中国本土说话者发出的 12,484 个话语，其中包括深度信息，可用于评估音频视觉语音识别的有效性。

Abstract

audio-visual speech recognition (AVSR) gains increasing attention from researchers as an important part of human-computer interaction. However, the existing available mandarin audio-visual datasets are limited an

audio-visual speech recognition mandarin multimodal corpus depth information dataset

发现论文，激发创造

OLKAVS: 一个开放的大规模韩语音频 - 视觉语音数据集

提出了韩文的开放式大规模多模音视频数据集（OLKAVS）及其对多模态研究的促进作用。

Jan, 2023

M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

通过提供高质量的人工注释，本文提出了一个全新的多模态、多类型和多用途的音频 - 视频学术讲座数据集，旨在支持多种音视频识别和理解任务，从而展示了 M^3AV 数据集的多样性和挑战性。

Mar, 2024

CI-AVSR: 一份用于汽车指令识别的粤语音频视觉语音数据集

本文提出了一个新的中文粤语数据集 - Cantonese In-car Audio-Visual Speech Recognition (CI-AVSR)，用于研究车内指令识别。使用视觉和音频数据来识别汽车相关的指令，并采用常见的车内背景噪声进行数据增强来模拟真实环境，同时还实现了两种多模态基线以证明数据集的有效性和可行性。

Jan, 2022

一种多用途的音频 - 视觉语料库，用于多模式波斯语语音识别：Arman-AV 数据集

本文提出一个新的适用于波斯语的多用途视听数据集，包括近 220 小时的视频，可用于自动语音识别、视听语音识别、说话人识别和自动口型阅读。同时，本数据集也是波斯语中第一个大规模口型阅读数据集。还提出了一种检测波斯语中视音素（一个音素的可视对应物）的技术，在相对于先前提出的视音素方案的基础上可以将口型阅读精度提高 7%。

Jan, 2023

AVA-AVD: 野外音视频说话人分离

本研究致力于提高在野外视频中识别 “谁何时说话” 的音视频扬声器分离的准确性，它创建了 AVA 音频 - 视觉扬声器分离（AVA-AVD）数据集和一种称为 AVR-Net 的新方法，通过加入 AVA-AVD 数据集的训练可以在相对较小的数据集上显着提高结果。

Nov, 2021

AV-Deepfake1M：大规模基于 LLM 的视听深度伪造数据集

本研究针对高度逼真的深度伪造音视频内容的检测和定位问题提出了 AV-Deepfake1M 数据集，并通过全面的描述和严格的数据质量分析，使用先进的深度伪造检测和定位方法进行了综合基准测试，结果显示与之前数据集相比性能大幅下降。该数据集将在构建下一代深度伪造定位方法中发挥重要作用。

Nov, 2023

ViSpeR: 多语言音视频语音识别

该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上，对音视频语音识别（AVSR）进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练，在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争力。该研究通过提供数据集和模型给研究社区，旨在为音视频语音识别领域的进一步研究和探索奠定基础。

May, 2024

MAD: 电影音频描述视频语言基础数据集

该论文提出了 MAD 基准测试，通过爬取和对齐可用的主流电影音频描述，包含超过 384,000 个自然语言句子，展示出视频语言基础数据集中存在的偏差的显着减少，使短暂的时间点可以准确地与长达三个小时的视频相匹配。

Dec, 2021

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

Kaggle 竞赛：用于车内指令的粤语视听语音识别

研究智能车辆的深度学习与智能化，提供车辆相关信息和增强性能至关重要。然而目前，这个领域的大部分数据集往往只有英语和中文存在，这妨碍了更广泛社群的研究与应用。为了解决这一问题，本文提出了一种应对低资源语言识别问题的方法，即使用视听数据进行广东话语音识别。

Jul, 2022