AVA：时空本地化的原子视觉动作视频数据集

CVPRMay, 2017

AVA：时空本地化的原子视觉动作视频数据集

AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

Chunhui Gu, Chen Sun, David A. Ross, Carl Vondrick, Caroline Pantofaru...

TL;DR介绍一个新的视频数据集 AVA，其中定义了 80 个原子视觉动作并进行了精确的时空注释，可以帮助改进动作识别。提出了一种基于现有方法的新方法，针对 JHMDB 和 UCF101-24 类别的表现更佳，但在 AVA 上仍需开发新的视频理解方法，表明该数据集暴露了动作识别的内在困难。

Abstract

This paper introduces a video dataset of spatio-temporally localized Atomic Visual Actions (AVA). The AVA dataset densely annotates 80 atomic visual actions in 430 15-minute video clips, where actions are localized in space and time, resulting in 1.58M →

atomic visual actions spatio-temporal annotations video dataset action recognition action labels

发现论文，激发创造

AVA-Kinetics 本地化人类行为视频数据集

该论文介绍了 AVA-Kinetics 本地化人类行为视频数据集，其中包含超过 230k 个帧，对每个人的关键帧进行了 80 个 AVA 动作类的注释，通过视频行动变换网络在 AVA-Kinetics 数据集上进行了基线评估，并证明了在 AVA 测试集上行动分类的表现有所改善。

May, 2020

HAA500: 基于人的原子动作数据集与策划视频

本文介绍新的数据集 HAA500，该数据集包含 500 类人类中心的原子动作，用于动作识别，比现有的数据集更具细微粒度和人类动作。

Sep, 2020

参考原子视频动作识别

引入一个名为 RAVAR 的新任务，该任务旨在根据个别人的文本描述和视频数据识别其原子动作，介绍了 RefAVA 数据集和 RefAtomNet 方法作为强大的初步基准。

Jul, 2024

音视时刻：一个大规模标注的音视行动数据集

我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT)，它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入，并基于此进行了音频视觉事件识别性能的改进研究。通过在 6 个递归神经网络 (RNNs) 上进行训练和测试，我们发现专门使用音频视觉事件进行训练可以显著提高识别性能。我们有理由相信，这个新标注的 AVMIT 数据集将成为研究和比较实验的有价值资源，特别是在涉及到音频视觉对应关系的研究问题中。

Aug, 2023

视频动作转换网络

本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Dec, 2018

Okutama-Action：一种用于同时人体行动检测的空中视角视频数据集

本文提出了一个名为 Okutama-Action 的数据集，用于帮助超越现有的人体动作检测数据集的限制，以便更好地适应复杂的现实世界应用场景，其中包括动态转换操作，显着的比例和宽高比变化，突然的相机移动，以及多标签演员等不同的挑战

Jun, 2017

使用人类动作构建视频语言数据集进行多模态逻辑推理

介绍了一个新的包含人类行为的视频和语言数据集，该数据集专注于描述动态人类动作的故事意图和局限性表达式，该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。

Jun, 2021

AVA-ActiveSpeaker: 一份用于活动说话人检测的音频 - 视觉数据集

本文介绍了 AVA-ActiveSpeaker 数据集，并提出了一种新的视听方法用于活跃演讲者检测，并分析其性能和数据集的贡献。

Jan, 2019

时刻数据集：百万事件视频用于事件理解

Moments in Time 数据集是一个包含 100 万短视频的大型人工注释集合，主要用于研究动态事件的空间 - 音频 - 时间动态建模，包括 339 个类别的活动标注，可作为发展至人类日常处理的复杂性和抽象推理水平的模型的新挑战。

Jan, 2018

基于层级原子动作的细粒度视频弱监督时序动作检测

本文提出一种弱监督的方法来检测细粒度视频动作，通过自我监督聚类获取可重复和自动发现的原子动作集合，并结合语义标签层次将原子动作映射到细粒度和粗粒度行动标签，最终构建了四个层次的视频可视化表示层次，在两个大型数据集上实验表明该方法在细粒度动作检测方面取得了最优性能。

Jul, 2022