音视时刻：一个大规模标注的音视行动数据集

Aug, 2023

音视时刻：一个大规模标注的音视行动数据集

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual Actions

Michael Joannou, Pia Rotshtein, Uta Noppeney

TL;DR我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT)，它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入，并基于此进行了音频视觉事件识别性能的改进研究。通过在 6 个递归神经网络 (RNNs) 上进行训练和测试，我们发现专门使用音频视觉事件进行训练可以显著提高识别性能。我们有理由相信，这个新标注的 AVMIT 数据集将成为研究和比较实验的有价值资源，特别是在涉及到音频视觉对应关系的研究问题中。

Abstract

We present Audiovisual Moments in Time (AVMIT), a large-scale dataset of audiovisual action events. In an extensive annotation task 11 par

audiovisual action events dataset annotation feature embeddings audiovisual event recognition

发现论文，激发创造

时刻数据集：百万事件视频用于事件理解

Moments in Time 数据集是一个包含 100 万短视频的大型人工注释集合，主要用于研究动态事件的空间 - 音频 - 时间动态建模，包括 339 个类别的活动标注，可作为发展至人类日常处理的复杂性和抽象推理水平的模型的新挑战。

Jan, 2018

口述时刻：从视频描述中学习联合音频视觉表示

本文介绍了一种新的数据集，名为 ‘Spoken Moments’，共收集了 500k 由语音记录的视频描述并提出一种名为 AMM 的对比学习方法，用于视频标注和检索任务，并通过评估得到了较好的实验结果。

May, 2021

AVA：时空本地化的原子视觉动作视频数据集

介绍一个新的视频数据集 AVA，其中定义了 80 个原子视觉动作并进行了精确的时空注释，可以帮助改进动作识别。提出了一种基于现有方法的新方法，针对 JHMDB 和 UCF101-24 类别的表现更佳，但在 AVA 上仍需开发新的视频理解方法，表明该数据集暴露了动作识别的内在困难。

May, 2017

时域多元素：多动作视频理解模型的学习与解释

介绍了 Multi-Moments in Time dataset，它包含了超过一百万个三秒视频的超过两百万个动作标签，为多动作检测训练和分析模型引入了新的挑战。对于长尾多标签学习，提出了适合的损失函数，并提供了更好的模型可视化和解释方法，表明将 M-MiT 训练的模型迁移到更小的数据集具有很强的鲁棒性。

Nov, 2019

M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

通过提供高质量的人工注释，本文提出了一个全新的多模态、多类型和多用途的音频 - 视频学术讲座数据集，旨在支持多种音视频识别和理解任务，从而展示了 M^3AV 数据集的多样性和挑战性。

Mar, 2024

TIM: 音视频动作识别的时间间隔机器

在长视频中，多样的行为产生丰富的视听信号。我们通过显式地建模音频和视觉事件的时间范围，解决了长视频中这两种模态之间的相互作用。我们提出了一种时间间隔机器（TIM），其中以特定模态的时间间隔作为查询，将长视频输入馈入转换器编码器。然后，编码器会关注指定的时间间隔以及两种模态中的周围上下文，以识别正在进行的动作。我们在三个长音视频数据集上测试了 TIM，并在识别方面报告了最先进的结果。此外，我们展示了 TIM 可以适用于动作检测，并在大多数指标上超越了先前的最先进技术。我们的实验结果表明，在实现这种性能中，整合两种模态并对它们的时间间隔建模起着关键作用。

Apr, 2024

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

ACAV100M: 大规模数据集自动筛选方法应用于视听视频表征学习

本文提出了一种基于子集优化的自动数据集精选方法，目标是最大化视频中音频和视觉通道之间的互信息，证明此方法找到具有高音频 - 视觉对应性的视频，并展示我们的数据训练自我监督模型达到了与手动精选数据集相同的结果，最大的好处是可扩展性，我们发布了一个包含一亿个视频的 ACAV100M 数据集，它具有高音频 - 视觉对应性，非常适合用于自我监督学习。

Jan, 2021

未剪辑视频中稠密定位视听事件：一个大规模基准和基线模型

本文介绍了针对非修剪视频中具有多种类别音频 - 视觉事件的任务的挑战，提出了一个新的学习框架来解决此问题，并引入了第一个 Untrimmed Audio-Visual (UnAV-100) 数据集以验证其有效性。

Mar, 2023

音视少样本学习的文本特征传播

通过少量标记数据进行音视频数据的深度学习模型训练是一种更经济的方式，本研究提出了一种统一的音视频少样本视频分类基准，通过跨模态注意力融合时空和音视觉特征，并为新类别生成多模态特征，最终获得了最先进的音视频少样本学习表现。

Sep, 2023