M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

Mar, 2024

M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset

Zhe Chen, Heyang Liu, Wenyi Yu, Guangzhi Sun, Hongcheng Liu...

TL;DR通过提供高质量的人工注释，本文提出了一个全新的多模态、多类型和多用途的音频 - 视频学术讲座数据集，旨在支持多种音视频识别和理解任务，从而展示了 M^3AV 数据集的多样性和挑战性。

Abstract

Publishing open-source academic video recordings is an emergent and prevalent approach to sharing knowledge online. Such videos carry rich multimodal information including speech, the facial and body movements of the speakers, as well as the texts and pictures in the slides and possibl

academic video recordings multimodal content recognition audio-visual academic lecture dataset high-quality human annotations audio-visual recognition and understanding tasks

发现论文，激发创造

多模式讲座演示文稿数据集：理解教育幻灯片中的多模式性

介绍了一个为了测试机器学习模型在多模态教育内容理解方面表现的新的数据集 ——Multimodal Lecture Presentations 数据集，并且提出了两个任务 —— 解释和说明教育内容，其中前者实现语音识别，后者实现视觉内容合成。介绍了一个名为 PolyViLT 的多模态变形器，该模型采用多个实例学习方法比现有方法更有效，同时指出了在多模态教育表现方面的挑战和机遇。

Aug, 2022

3MASSIV：社交媒体短视频的多语言、多模态和多层面数据集

3MASSIV 是一个多语言、多模态、多方面的专家标注数据集，由来自 Moj 短视频社交媒体平台的多样化短视频和 11 种不同语言的 100K 未标注视频组成，通过其独特的音频和视觉格式表达了流行的短视频趋势，介绍了 3MASSIV 并分析了其与强基线下其他现代流行数据集的不同之处，并展示了如何使用 3MASSIV 的社交媒体内容在语义理解任务和跨语言分析中应用。

Mar, 2022

ACAV100M: 大规模数据集自动筛选方法应用于视听视频表征学习

本文提出了一种基于子集优化的自动数据集精选方法，目标是最大化视频中音频和视觉通道之间的互信息，证明此方法找到具有高音频 - 视觉对应性的视频，并展示我们的数据训练自我监督模型达到了与手动精选数据集相同的结果，最大的好处是可扩展性，我们发布了一个包含一亿个视频的 ACAV100M 数据集，它具有高音频 - 视觉对应性，非常适合用于自我监督学习。

Jan, 2021

MAVD：首个带深度信息的开放式大规模普通话视听数据集

这项工作旨在建立 MAVD，这是一个新的大规模普通话多模态语料库，包括由 64 名中国本土说话者发出的 12,484 个话语，其中包括深度信息，可用于评估音频视觉语音识别的有效性。

Jun, 2023

AVA-ActiveSpeaker: 一份用于活动说话人检测的音频 - 视觉数据集

本文介绍了 AVA-ActiveSpeaker 数据集，并提出了一种新的视听方法用于活跃演讲者检测，并分析其性能和数据集的贡献。

Jan, 2019

音视时刻：一个大规模标注的音视行动数据集

我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT)，它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入，并基于此进行了音频视觉事件识别性能的改进研究。通过在 6 个递归神经网络 (RNNs) 上进行训练和测试，我们发现专门使用音频视觉事件进行训练可以显著提高识别性能。我们有理由相信，这个新标注的 AVMIT 数据集将成为研究和比较实验的有价值资源，特别是在涉及到音频视觉对应关系的研究问题中。

Aug, 2023

用于医疗教学视频分类和问答的数据集

介绍新的数据集和任务，旨在促进医疗视频的理解与自然语言问题的视觉回答，并以这两项任务为重心，提供跨模态（医疗语言和医学视频）的理解挑战。这些任务和数据集有助于推动支持公众和医务人员受益的下游应用程序的发展，并已通过医学信息学专家的验证和修正。

Jan, 2022

AV-Deepfake1M：大规模基于 LLM 的视听深度伪造数据集

本研究针对高度逼真的深度伪造音视频内容的检测和定位问题提出了 AV-Deepfake1M 数据集，并通过全面的描述和严格的数据质量分析，使用先进的深度伪造检测和定位方法进行了综合基准测试，结果显示与之前数据集相比性能大幅下降。该数据集将在构建下一代深度伪造定位方法中发挥重要作用。

Nov, 2023

CN-Celeb-AV：一个用于人物识别的多类型音视频数据集

本文介绍了一种名为 CN-Celeb-AV 的多类型音视频人物识别数据集，其中包含了超过 420K 个视频片段，比起传统数据集更符合真实世界场景，适用于 AVPR 领域的研究。

May, 2023

AVA-AVD: 野外音视频说话人分离

本研究致力于提高在野外视频中识别 “谁何时说话” 的音视频扬声器分离的准确性，它创建了 AVA 音频 - 视觉扬声器分离（AVA-AVD）数据集和一种称为 AVR-Net 的新方法，通过加入 AVA-AVD 数据集的训练可以在相对较小的数据集上显着提高结果。

Nov, 2021