使用密集检测锚点在足球视频中精确检测动作

May, 2022

使用密集检测锚点在足球视频中精确检测动作

Temporally Precise Action Spotting in Soccer Videos Using Dense Detection Anchors

João V. B. Soares, Avijit Shah, Topojoy Biswas

TL;DR通过使用一组密集的检测锚点，预测每个锚点的检测置信度和相应的精细时间位移量，我们提出了一种视频中时间精准行动检测的模型，并尝试了两种主干架构，一维版的 u-net 和 Transformer 编码器 (TE), 并采用锐度感知最小化 (SAM) 和混合数据增强方法进行模型训练，取得了 SoccerNet-v2 数据集上的最新最佳性能，同时证明了预测时间位移量，不同主干架构的权衡，采用 SAM 和 mixup 进行训练的好处等相关实验结果。

Abstract

We present a model for temporally precise action spotting in videos, which uses a dense set of detection anchors, predicting a detection confidence and corresponding fine-grained temporal displacement for each an

temporally precise action spotting detection anchors transformer encoder sharpness-aware minimization mixup data augmentation

发现论文，激发创造

使用密集检测锚点的动作定位再次审视：参加 SoccerNet Challenge 2022

通过增加时间精度、结合不同输入特征类型以及改进前后处理步骤，使用基于密集检测锚点的行动识别方法，该论文在评估标准 Tight average-mAP 上取得第一名并成为 SoccerNet 测试集上的最新技术。

Jun, 2022

SoccerNet: 一个用于足球视频动作定位的可扩展数据集

该研究介绍了 SoccerNet，这是一个针对足球视频中动作定位的基准数据集，涵盖 2014 年至 2017 年三个赛季的六个欧洲主要联赛中的 500 场比赛，其中自动分析了 6,637 个事件的时间注释。作者们利用了通用动作识别和检测的最新进展，提供了针对足球事件检测的强大基线。

Apr, 2018

RMS-Net: 足球事件检测的回归和掩蔽

该论文提出了一种轻量级的、具有模块化特性的网络，用于识别足球比赛中的事件，并且能够同时预测该事件的类别和时间偏移量；在使用标准特征测试时，与当前最新技术相比，该方法的平均精度提高了 3 个百分点，并且与强 2D 骨干网络结合微调后，在测试集上的平均精度提高了超过 10 个百分点。

Feb, 2021

足球视频中动作检测的上下文感知损失函数

本文提出了一种新的损失函数，它特别考虑了每个动作周围的时间上下文，而不是只关注于单个时间戳，然后在 SoccerNet 上测试表现，取得了 12.8％的改进，同时展示了该方法用于通用活动提议和检测的泛化能力，进而探讨了足球视频中动作定位的挑战和损失函数如何用于自动生成亮点。

Dec, 2019

特征组合与注意力相遇：百度足球嵌入和基于 Transformer 的时间检测

本文提出了一种基于多阶段范式的方法，通过使用动作认知模型提取高级语义特征和设计转换器来定位目标事件，以检测和确定足球广播视频中事件的发生时间，并在 SoccerNet-v2 Challenge 中获得了最新的表现，在动作识别和重播地面任务上均表现出最先进的性能。

Jun, 2021

利用音频和视频流改进足球动作识别

本文提出了一个研究，探讨在足球视频中进行多模态（音频和视频）的动作定位和分类。我们使用了 SoccerNet 基准数据集，并评估了在不同的深度神经网络结构中整合音频流的几种方法，并观察到在动作分类任务和动作定位任务中平均平均精度 (mAP) 指标分别提高了 7.43％和 4.19％。

Nov, 2020

足球比赛广播中动作检测的时间感知特征汇聚

该研究旨在通过特征聚合方法 NetVLAD++ 在足球广播中实现行为定位，并在最新的大型数据集 SoccerNet-v2 上进行训练和评估，在行为定位方面取得了 53.4% 的平均 MAP，较当前技术的水平提高了 12.7%。

Apr, 2021

全球与本地场景实体建模以实现精确的动作检测

我们提出了一种新的方法，通过自适应注意机制来分析和建模场景实体，以解决在体育视频中探测行为的复杂挑战，并取得了出色的性能改进。

Apr, 2024

在视频中精确定位细粒度事件

我们引入了一个具有精确定位时间、细粒度事件的任务（检测事件发生的确切时刻）。为了实现精确定位，模型需要全局推理活动的整个时间尺度，同时本地识别识别在这些活动期间标识事件的细微帧间外观和运动差异。我们提出了 E2E-Spot，它是一种紧凑的端到端模型，在精确定位任务上表现良好，并可以在单个 GPU 上快速训练。我们证明 E2E-Spot 显着优于最近从视频动作检测、分割和定位文献中调整的基线，用于精确定位任务。最后，我们对多个细粒度运动数据集进行了新的注释和拆分，使这些数据集适用于未来的精确定位研究。

Jul, 2022

动作搜索：在视频中识别动作及其在时间动作定位中的应用

本文提出了基于观察视频小部分来查找视频中特定动作的新问题：视频中的动作识别，并使用递归神经网络模仿人类查找动作的方式，同时建立了 Human Searches 数据集，从中得到人类注释者的行为数据，用于解决动作识别中缺乏数据的问题，实验表明，该模型不仅能够在观察视频的平均 17.3％的情况下高效地探索视频，还能以 30.8％的平均精度准确地找到人类活动。

Jun, 2017