时刻数据集：百万事件视频用于事件理解

Jan, 2018

时刻数据集：百万事件视频用于事件理解

Moments in Time Dataset: one million videos for event understanding

Mathew Monfort, Alex Andonian, Bolei Zhou, Kandan Ramakrishnan, Sarah Adel Bargal...

TL;DRMoments in Time 数据集是一个包含 100 万短视频的大型人工注释集合，主要用于研究动态事件的空间 - 音频 - 时间动态建模，包括 339 个类别的活动标注，可作为发展至人类日常处理的复杂性和抽象推理水平的模型的新挑战。

Abstract

We present the moments in time dataset, a large-scale human-annotated collection of one million short videos corresponding to dynamic events unfolding within three seconds. Modeling the →

moments in time dataset dynamic events spatial-audio-temporal dynamics action recognition large-scale video datasets

发现论文，激发创造

时域多元素：多动作视频理解模型的学习与解释

介绍了 Multi-Moments in Time dataset，它包含了超过一百万个三秒视频的超过两百万个动作标签，为多动作检测训练和分析模型引入了新的挑战。对于长尾多标签学习，提出了适合的损失函数，并提供了更好的模型可视化和解释方法，表明将 M-MiT 训练的模型迁移到更小的数据集具有很强的鲁棒性。

Nov, 2019

口述时刻：从视频描述中学习联合音频视觉表示

本文介绍了一种新的数据集，名为 ‘Spoken Moments’，共收集了 500k 由语音记录的视频描述并提出一种名为 AMM 的对比学习方法，用于视频标注和检索任务，并通过评估得到了较好的实验结果。

May, 2021

音视时刻：一个大规模标注的音视行动数据集

我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT)，它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入，并基于此进行了音频视觉事件识别性能的改进研究。通过在 6 个递归神经网络 (RNNs) 上进行训练和测试，我们发现专门使用音频视觉事件进行训练可以显著提高识别性能。我们有理由相信，这个新标注的 AVMIT 数据集将成为研究和比较实验的有价值资源，特别是在涉及到音频视觉对应关系的研究问题中。

Aug, 2023

学习在大规模视频数据中本地化时间事件

该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题，一种是采用梯度提升决策树模型，另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合，在第三届 Youtube-8M 视频识别挑战中获得第 5 名。

Oct, 2019

SoccerNet: 一个用于足球视频动作定位的可扩展数据集

该研究介绍了 SoccerNet，这是一个针对足球视频中动作定位的基准数据集，涵盖 2014 年至 2017 年三个赛季的六个欧洲主要联赛中的 500 场比赛，其中自动分析了 6,637 个事件的时间注释。作者们利用了通用动作识别和检测的最新进展，提供了针对足球事件检测的强大基线。

Apr, 2018

MultiSports：一个时空定位的多人体育动作视频数据集

本文介绍了一个新的多人数据集 MultiSports，用于检测时空定位的体育动作，提供了一组细致的标注，以便作为未来时空动作检测的标准基准。

May, 2021

每一刻都重要：复杂视频中行动的密集详细标注

该研究通过使用多标签分析行为识别问题，并在已有数据集 THUMOS 的基础上拓展了新数据集 MultiTHUMOS，提出了一种采用 LSTM 深度网络来建模多个密集标签时序关系的新算法，从而提高动作标注精度，同时也使得结构化检索和动作预测等更深入的理解任务得以实现。

Jul, 2015

视频中的密集事件描述

本篇研究介绍了一种能够在视频中检测和描述事件的新模型，同时使用过去和未来事件的上下文信息来联合描述所有事件，并介绍了一个用于密集事件字幕的基准测试集 ActivityNet Captions。

May, 2017

使用人类动作构建视频语言数据集进行多模态逻辑推理

介绍了一个新的包含人类行为的视频和语言数据集，该数据集专注于描述动态人类动作的故事意图和局限性表达式，该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。

Jun, 2021

TIM: 音视频动作识别的时间间隔机器

在长视频中，多样的行为产生丰富的视听信号。我们通过显式地建模音频和视觉事件的时间范围，解决了长视频中这两种模态之间的相互作用。我们提出了一种时间间隔机器（TIM），其中以特定模态的时间间隔作为查询，将长视频输入馈入转换器编码器。然后，编码器会关注指定的时间间隔以及两种模态中的周围上下文，以识别正在进行的动作。我们在三个长音视频数据集上测试了 TIM，并在识别方面报告了最先进的结果。此外，我们展示了 TIM 可以适用于动作检测，并在大多数指标上超越了先前的最先进技术。我们的实验结果表明，在实现这种性能中，整合两种模态并对它们的时间间隔建模起着关键作用。

Apr, 2024