在视频中精确定位细粒度事件

ECCVJul, 2022

Spotting Temporally Precise, Fine-Grained Events in Video

James Hong, Haotian Zhang, Michaël Gharbi, Matthew Fisher, Kayvon Fatahalian

TL;DR我们引入了一个具有精确定位时间、细粒度事件的任务（检测事件发生的确切时刻）。为了实现精确定位，模型需要全局推理活动的整个时间尺度，同时本地识别识别在这些活动期间标识事件的细微帧间外观和运动差异。我们提出了 E2E-Spot，它是一种紧凑的端到端模型，在精确定位任务上表现良好，并可以在单个 GPU 上快速训练。我们证明 E2E-Spot 显着优于最近从视频动作检测、分割和定位文献中调整的基线，用于精确定位任务。最后，我们对多个细粒度运动数据集进行了新的注释和拆分，使这些数据集适用于未来的精确定位研究。

Abstract

We introduce the task of spotting temporally precise, fine-grained events in video (detecting the precise moment in time events occur). precise spotting requires models to reason globally about the full-time scal

precise spotting fine-grained events end-to-end model video understanding sports action datasets

发现论文，激发创造

使用密集检测锚点在足球视频中精确检测动作

通过使用一组密集的检测锚点，预测每个锚点的检测置信度和相应的精细时间位移量，我们提出了一种视频中时间精准行动检测的模型，并尝试了两种主干架构，一维版的 u-net 和 Transformer 编码器 (TE), 并采用锐度感知最小化 (SAM) 和混合数据增强方法进行模型训练，取得了 SoccerNet-v2 数据集上的最新最佳性能，同时证明了预测时间位移量，不同主干架构的权衡，采用 SAM 和 mixup 进行训练的好处等相关实验结果。

May, 2022

动作搜索：在视频中识别动作及其在时间动作定位中的应用

本文提出了基于观察视频小部分来查找视频中特定动作的新问题：视频中的动作识别，并使用递归神经网络模仿人类查找动作的方式，同时建立了 Human Searches 数据集，从中得到人类注释者的行为数据，用于解决动作识别中缺乏数据的问题，实验表明，该模型不仅能够在观察视频的平均 17.3％的情况下高效地探索视频，还能以 30.8％的平均精度准确地找到人类活动。

Jun, 2017

学习在大规模视频数据中本地化时间事件

该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题，一种是采用梯度提升决策树模型，另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合，在第三届 Youtube-8M 视频识别挑战中获得第 5 名。

Oct, 2019

足球视频中动作检测的上下文感知损失函数

本文提出了一种新的损失函数，它特别考虑了每个动作周围的时间上下文，而不是只关注于单个时间戳，然后在 SoccerNet 上测试表现，取得了 12.8％的改进，同时展示了该方法用于通用活动提议和检测的泛化能力，进而探讨了足球视频中动作定位的挑战和损失函数如何用于自动生成亮点。

Dec, 2019

基于时空滤波的事件驱动行为识别

本文提出了在事件域中进行时空过滤的方法，通过学习局部时空权重矩阵，增强卷积神经网络对动作识别的性能，在 DVS Gesture 数据集和新录制的动作识别数据集上显著改善。

Mar, 2019

RMS-Net: 足球事件检测的回归和掩蔽

该论文提出了一种轻量级的、具有模块化特性的网络，用于识别足球比赛中的事件，并且能够同时预测该事件的类别和时间偏移量；在使用标准特征测试时，与当前最新技术相比，该方法的平均精度提高了 3 个百分点，并且与强 2D 骨干网络结合微调后，在测试集上的平均精度提高了超过 10 个百分点。

Feb, 2021

通过从网络图像的域转移，在视频中对细粒度动作进行时间本地化

本研究采用弱监督和跨领域转移学习的方法，结合深度卷积神经网络和长短时记忆网络，实现从未剪辑的网络视频中，对于精细的动作定位识别，并使用大量的数据集如 FGA-240 和 THUMOS 2014，得到了令人信服的结果。

Apr, 2015

SoccerNet: 一个用于足球视频动作定位的可扩展数据集

该研究介绍了 SoccerNet，这是一个针对足球视频中动作定位的基准数据集，涵盖 2014 年至 2017 年三个赛季的六个欧洲主要联赛中的 500 场比赛，其中自动分析了 6,637 个事件的时间注释。作者们利用了通用动作识别和检测的最新进展，提供了针对足球事件检测的强大基线。

Apr, 2018

SPOT！重新审视视频语言模型用于事件理解

利用网络爬取的大规模视频 - 文本对数据作为弱监督，视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题，通过提出 SPOT Prober 方法并进行实验证明，通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。

Nov, 2023

极低分辨率动作识别的全耦合双流时空网络

本文提出了一种全耦合的两路时空结构体系框架，可在极低分辨率（如 12x16 像素）视频中可靠地识别人的动作，以保护人们的隐私，同时在训练期间考虑高分辨率视频以建立更好的低分辨率模型，取得了明显的改进。

Jan, 2018