时刻数据集:百万事件视频用于事件理解
介绍了 Multi-Moments in Time dataset,它包含了超过一百万个三秒视频的超过两百万个动作标签,为多动作检测训练和分析模型引入了新的挑战。对于长尾多标签学习,提出了适合的损失函数,并提供了更好的模型可视化和解释方法,表明将 M-MiT 训练的模型迁移到更小的数据集具有很强的鲁棒性。
Nov, 2019
本文介绍了一种新的数据集,名为 ‘Spoken Moments’,共收集了 500k 由语音记录的视频描述并提出一种名为 AMM 的对比学习方法,用于视频标注和检索任务,并通过评估得到了较好的实验结果。
May, 2021
我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT),它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入,并基于此进行了音频视觉事件识别性能的改进研究。通过在 6 个递归神经网络 (RNNs) 上进行训练和测试,我们发现专门使用音频视觉事件进行训练可以显著提高识别性能。我们有理由相信,这个新标注的 AVMIT 数据集将成为研究和比较实验的有价值资源,特别是在涉及到音频视觉对应关系的研究问题中。
Aug, 2023
该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题,一种是采用梯度提升决策树模型,另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合,在第三届 Youtube-8M 视频识别挑战中获得第 5 名。
Oct, 2019
该研究介绍了 SoccerNet,这是一个针对足球视频中动作定位的基准数据集,涵盖 2014 年至 2017 年三个赛季的六个欧洲主要联赛中的 500 场比赛,其中自动分析了 6,637 个事件的时间注释。作者们利用了通用动作识别和检测的最新进展,提供了针对足球事件检测的强大基线。
Apr, 2018
本文介绍了一个新的多人数据集 MultiSports,用于检测时空定位的体育动作,提供了一组细致的标注,以便作为未来时空动作检测的标准基准。
May, 2021
该研究通过使用多标签分析行为识别问题,并在已有数据集 THUMOS 的基础上拓展了新数据集 MultiTHUMOS,提出了一种采用 LSTM 深度网络来建模多个密集标签时序关系的新算法,从而提高动作标注精度,同时也使得结构化检索和动作预测等更深入的理解任务得以实现。
Jul, 2015
本篇研究介绍了一种能够在视频中检测和描述事件的新模型,同时使用过去和未来事件的上下文信息来联合描述所有事件,并介绍了一个用于密集事件字幕的基准测试集 ActivityNet Captions。
May, 2017
介绍了一个新的包含人类行为的视频和语言数据集,该数据集专注于描述动态人类动作的故事意图和局限性表达式,该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。
Jun, 2021
在长视频中,多样的行为产生丰富的视听信号。我们通过显式地建模音频和视觉事件的时间范围,解决了长视频中这两种模态之间的相互作用。我们提出了一种时间间隔机器(TIM),其中以特定模态的时间间隔作为查询,将长视频输入馈入转换器编码器。然后,编码器会关注指定的时间间隔以及两种模态中的周围上下文,以识别正在进行的动作。我们在三个长音视频数据集上测试了 TIM,并在识别方面报告了最先进的结果。此外,我们展示了 TIM 可以适用于动作检测,并在大多数指标上超越了先前的最先进技术。我们的实验结果表明,在实现这种性能中,整合两种模态并对它们的时间间隔建模起着关键作用。
Apr, 2024