多镜头时间事件定位：基准测试

CVPRDec, 2020

Multi-shot Temporal Event Localization: a Benchmark

Xiaolong Liu, Yao Hu, Song Bai, Fei Ding, Xiang Bai...

TL;DR本文提出了一个新的挑战性任务，即多镜头时间事件定位，并相应地收集了一个名为 MUSES 的大规模数据集，其中包含 31,477 个事件实例，共计 716 个小时的视频；同时，我们在处理内部实例差异方面提出了一个简单的基线方法，并在 IoU=0.5 的情况下，在 MUSES 和 THUMOS14 上报告了分别为 18.9％和 56.9％的 mAP 值。

Abstract

Current developments in temporal event or action localization usually target actions captured by a single camera. However, extensive events or actions in the wild may be captured as a sequence of shots by multiple cameras at different positions. In this paper, we propose a new and challenging task called →

multi-shot temporal event localization muses dataset shot cuts intra-instance variations temporal action localization

发现论文，激发创造

时刻数据集：百万事件视频用于事件理解

Moments in Time 数据集是一个包含 100 万短视频的大型人工注释集合，主要用于研究动态事件的空间 - 音频 - 时间动态建模，包括 339 个类别的活动标注，可作为发展至人类日常处理的复杂性和抽象推理水平的模型的新挑战。

Jan, 2018

时域多元素：多动作视频理解模型的学习与解释

介绍了 Multi-Moments in Time dataset，它包含了超过一百万个三秒视频的超过两百万个动作标签，为多动作检测训练和分析模型引入了新的挑战。对于长尾多标签学习，提出了适合的损失函数，并提供了更好的模型可视化和解释方法，表明将 M-MiT 训练的模型迁移到更小的数据集具有很强的鲁棒性。

Nov, 2019

使用多阶段 CNN 在未修剪的视频中进行时间动作定位

本研究提出了一种基于三种分段 3D 卷积神经网络的方法，用于解决未经修剪的长视频中的时间动作定位问题，其中提出网络用于识别可能包含动作的候选段，分类网络以一对多动作分类模型进行学习以作为定位网络的初始化，用于定位每个动作实例。

Jan, 2016

MultiSports：一个时空定位的多人体育动作视频数据集

本文介绍了一个新的多人数据集 MultiSports，用于检测时空定位的体育动作，提供了一组细致的标注，以便作为未来时空动作检测的标准基准。

May, 2021

学习在大规模视频数据中本地化时间事件

该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题，一种是采用梯度提升决策树模型，另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合，在第三届 Youtube-8M 视频识别挑战中获得第 5 名。

Oct, 2019

基于超图的多视角动作识别使用事件摄像机

多视角基于事件的行为识别框架 HyperMV 在多视角事件数据利用方面填补了现有研究的差距，并引入了最大的多视角基于事件的行为数据集 THU-MV-EACT-50，通过实验结果证明 HyperMV 在跨主体和跨视角情况下明显优于基线模型，同时在基于帧的多视角行为识别方面超越了现有的技术水平。

Mar, 2024

基于时间提案演化的精准时间动作定位

提出了一个基于三阶段框架的行动定位方法，包括一个 Actionness 神经网络来生成初始提议，一个 Refinement 网络来进行边界调整，以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异，尤其是在高 IoU 阈值下的精确定位方面表现出色，mAP@IoU=0.5 达到 34.2%。

Apr, 2018

MUSES：驾驶不确定性条件下的多传感器语义感知数据集

在自动驾驶汽车中实现第五级驾驶自动化需要一个强大的语义视觉感知系统，它能够解析来自不同传感器的数据，并适应多种条件。为了解决现有语义感知数据集中通常缺乏自动驾驶汽车中常用的重要非相机模式，或者未能利用这些模式来帮助和改善具有挑战性条件下的语义注释的问题，我们引入了 MUSES，即用于在恶劣条件下以增加的不确定性驾驶的多传感器语义感知数据集。MUSES 包括在多样化的天气和照明条件下捕获的 2500 张图像的同步多模态记录，并具有 2D 全景注释。该数据集整合了帧相机、激光雷达、雷达、事件相机和 IMU/GNSS 传感器。我们的新型两阶段全景注释协议捕捉了真实值中的类别级别和实例级别的不确定性，引入了我们的新任务 —— 不确定性感知全景分割，并同时提供标准的语义分割和全景分割。MUSES 在多样的视觉条件下既对训练有效又具有挑战性，为多模态和不确定性感知中的研究开辟了新的途径。我们的数据集和基准将公开提供。

Jan, 2024

视频的多模态分布语义嵌入进行零样本事件检测

本文提出了一种基于多模态分布语义嵌入的零样本事件检测方法，以视频为载体，将对象和动作等概念以及其他可用形式的多模态信息嵌入到分布语义空间中，实现了自由文本事件查询、概念属性的自动确定、视频检索等功能，在 TRECVID MED 大规模多媒体事件检测挑战中验证，有效性和速度均优于目前最先进的技术水平。

Dec, 2015

视频中多个时空动作管的深度学习检测

提出了一个新的方法，利用三个阶段的框架实现了视频中多个并发动作的时空本地化（检测）和分类，通过动态规划构建了最有可能与单个动作实例相关联的检测框序列，其表现在 UCF101、J-HMDB-21 和 LIRIS-HARL 数据集上都显著优于现有结果，改进最大检出率（mAP）比之前提高了约 20％和 11％。

Aug, 2016