时域多元素：多动作视频理解模型的学习与解释

Nov, 2019

时域多元素：多动作视频理解模型的学习与解释

Multi-Moments in Time: Learning and Interpreting Models for Multi-Action Video Understanding

Mathew Monfort, Bowen Pan, Kandan Ramakrishnan, Alex Andonian, Barry A McNamara...

TL;DR介绍了 Multi-Moments in Time dataset，它包含了超过一百万个三秒视频的超过两百万个动作标签，为多动作检测训练和分析模型引入了新的挑战。对于长尾多标签学习，提出了适合的损失函数，并提供了更好的模型可视化和解释方法，表明将 M-MiT 训练的模型迁移到更小的数据集具有很强的鲁棒性。

Abstract

Videos capture events that typically contain multiple sequential, and simultaneous, actions even in the span of only a few seconds. However, most large-scale datasets built to train models for action recognition in video only provide a single label per video. Consequently, models can b

multi-moments in time dataset action recognition multi-label learning long tail transfer learning

发现论文，激发创造

时刻数据集：百万事件视频用于事件理解

Moments in Time 数据集是一个包含 100 万短视频的大型人工注释集合，主要用于研究动态事件的空间 - 音频 - 时间动态建模，包括 339 个类别的活动标注，可作为发展至人类日常处理的复杂性和抽象推理水平的模型的新挑战。

Jan, 2018

每一刻都重要：复杂视频中行动的密集详细标注

该研究通过使用多标签分析行为识别问题，并在已有数据集 THUMOS 的基础上拓展了新数据集 MultiTHUMOS，提出了一种采用 LSTM 深度网络来建模多个密集标签时序关系的新算法，从而提高动作标注精度，同时也使得结构化检索和动作预测等更深入的理解任务得以实现。

Jul, 2015

视频动作检测：分析限制和挑战

本文旨在探讨在视频动作检测中，除数据集规模外其他能够衡量数据集质量的属性，并且提出了一个新的，适用于真实世界应用的多演员多行为（MAMA）数据集，同时还对影响视频数据集的时间关系进行了相关性研究，进而发现现有方法存在偏见。

Apr, 2022

音视时刻：一个大规模标注的音视行动数据集

我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT)，它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入，并基于此进行了音频视觉事件识别性能的改进研究。通过在 6 个递归神经网络 (RNNs) 上进行训练和测试，我们发现专门使用音频视觉事件进行训练可以显著提高识别性能。我们有理由相信，这个新标注的 AVMIT 数据集将成为研究和比较实验的有价值资源，特别是在涉及到音频视觉对应关系的研究问题中。

Aug, 2023

MultiSports：一个时空定位的多人体育动作视频数据集

本文介绍了一个新的多人数据集 MultiSports，用于检测时空定位的体育动作，提供了一组细致的标注，以便作为未来时空动作检测的标准基准。

May, 2021

口述时刻：从视频描述中学习联合音频视觉表示

本文介绍了一种新的数据集，名为 ‘Spoken Moments’，共收集了 500k 由语音记录的视频描述并提出一种名为 AMM 的对比学习方法，用于视频标注和检索任务，并通过评估得到了较好的实验结果。

May, 2021

当前的长期视频理解数据集是否长期？

我们提出了一种评估视频数据集对于长期动作识别模型评估的适用性的方法，研究发现现有的长期动作分类任务的数据集可以通过使用基于短期信息的快捷方式有效解决。因此，我们鼓励长期动作识别研究人员使用需要长期信息才能解决的数据集。

Aug, 2023

TIM: 音视频动作识别的时间间隔机器

在长视频中，多样的行为产生丰富的视听信号。我们通过显式地建模音频和视觉事件的时间范围，解决了长视频中这两种模态之间的相互作用。我们提出了一种时间间隔机器（TIM），其中以特定模态的时间间隔作为查询，将长视频输入馈入转换器编码器。然后，编码器会关注指定的时间间隔以及两种模态中的周围上下文，以识别正在进行的动作。我们在三个长音视频数据集上测试了 TIM，并在识别方面报告了最先进的结果。此外，我们展示了 TIM 可以适用于动作检测，并在大多数指标上超越了先前的最先进技术。我们的实验结果表明，在实现这种性能中，整合两种模态并对它们的时间间隔建模起着关键作用。

Apr, 2024

使用人类动作构建视频语言数据集进行多模态逻辑推理

介绍了一个新的包含人类行为的视频和语言数据集，该数据集专注于描述动态人类动作的故事意图和局限性表达式，该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。

Jun, 2021

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Aug, 2021