多镜头时间事件定位:基准测试
Moments in Time 数据集是一个包含 100 万短视频的大型人工注释集合,主要用于研究动态事件的空间 - 音频 - 时间动态建模,包括 339 个类别的活动标注,可作为发展至人类日常处理的复杂性和抽象推理水平的模型的新挑战。
Jan, 2018
介绍了 Multi-Moments in Time dataset,它包含了超过一百万个三秒视频的超过两百万个动作标签,为多动作检测训练和分析模型引入了新的挑战。对于长尾多标签学习,提出了适合的损失函数,并提供了更好的模型可视化和解释方法,表明将 M-MiT 训练的模型迁移到更小的数据集具有很强的鲁棒性。
Nov, 2019
本研究提出了一种基于三种分段 3D 卷积神经网络的方法,用于解决未经修剪的长视频中的时间动作定位问题,其中提出网络用于识别可能包含动作的候选段,分类网络以一对多动作分类模型进行学习以作为定位网络的初始化,用于定位每个动作实例。
Jan, 2016
本文介绍了一个新的多人数据集 MultiSports,用于检测时空定位的体育动作,提供了一组细致的标注,以便作为未来时空动作检测的标准基准。
May, 2021
该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题,一种是采用梯度提升决策树模型,另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合,在第三届 Youtube-8M 视频识别挑战中获得第 5 名。
Oct, 2019
多视角基于事件的行为识别框架 HyperMV 在多视角事件数据利用方面填补了现有研究的差距,并引入了最大的多视角基于事件的行为数据集 THU-MV-EACT-50,通过实验结果证明 HyperMV 在跨主体和跨视角情况下明显优于基线模型,同时在基于帧的多视角行为识别方面超越了现有的技术水平。
Mar, 2024
提出了一个基于三阶段框架的行动定位方法,包括一个 Actionness 神经网络来生成初始提议,一个 Refinement 网络来进行边界调整,以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异,尤其是在高 IoU 阈值下的精确定位方面表现出色,mAP@IoU=0.5 达到 34.2%。
Apr, 2018
在自动驾驶汽车中实现第五级驾驶自动化需要一个强大的语义视觉感知系统,它能够解析来自不同传感器的数据,并适应多种条件。为了解决现有语义感知数据集中通常缺乏自动驾驶汽车中常用的重要非相机模式,或者未能利用这些模式来帮助和改善具有挑战性条件下的语义注释的问题,我们引入了 MUSES,即用于在恶劣条件下以增加的不确定性驾驶的多传感器语义感知数据集。MUSES 包括在多样化的天气和照明条件下捕获的 2500 张图像的同步多模态记录,并具有 2D 全景注释。该数据集整合了帧相机、激光雷达、雷达、事件相机和 IMU/GNSS 传感器。我们的新型两阶段全景注释协议捕捉了真实值中的类别级别和实例级别的不确定性,引入了我们的新任务 —— 不确定性感知全景分割,并同时提供标准的语义分割和全景分割。MUSES 在多样的视觉条件下既对训练有效又具有挑战性,为多模态和不确定性感知中的研究开辟了新的途径。我们的数据集和基准将公开提供。
Jan, 2024
本文提出了一种基于多模态分布语义嵌入的零样本事件检测方法,以视频为载体,将对象和动作等概念以及其他可用形式的多模态信息嵌入到分布语义空间中,实现了自由文本事件查询、概念属性的自动确定、视频检索等功能,在 TRECVID MED 大规模多媒体事件检测挑战中验证,有效性和速度均优于目前最先进的技术水平。
Dec, 2015
提出了一个新的方法,利用三个阶段的框架实现了视频中多个并发动作的时空本地化(检测)和分类,通过动态规划构建了最有可能与单个动作实例相关联的检测框序列,其表现在 UCF101、J-HMDB-21 和 LIRIS-HARL 数据集上都显著优于现有结果,改进最大检出率(mAP)比之前提高了约 20%和 11%。
Aug, 2016