全球与本地场景实体建模以实现精确的动作检测
该研究旨在通过特征聚合方法 NetVLAD++ 在足球广播中实现行为定位,并在最新的大型数据集 SoccerNet-v2 上进行训练和评估,在行为定位方面取得了 53.4% 的平均 MAP,较当前技术的水平提高了 12.7%。
Apr, 2021
通过使用一组密集的检测锚点,预测每个锚点的检测置信度和相应的精细时间位移量,我们提出了一种视频中时间精准行动检测的模型,并尝试了两种主干架构,一维版的 u-net 和 Transformer 编码器 (TE), 并采用锐度感知最小化 (SAM) 和混合数据增强方法进行模型训练,取得了 SoccerNet-v2 数据集上的最新最佳性能,同时证明了预测时间位移量,不同主干架构的权衡,采用 SAM 和 mixup 进行训练的好处等相关实验结果。
May, 2022
足球动作场景理解任务具有挑战性,本文综述了该任务的行为识别、定位和时空动作定位,特别关注了使用的模态和多模态方法,并评估模型性能的可公开获取数据源和度量标准。文章回顾了利用深度学习技术和传统方法的最新状态,重点介绍了多模态方法,这些方法整合了来自多个来源(如视频和音频数据)的信息,以及用各种方式表示一种来源的方法。讨论了方法的优点、限制以及提高模型准确性和鲁棒性的潜力。最后,本文强调了足球动作识别领域中的一些开放性研究问题和未来方向,包括多模态方法推动该领域的潜力。总之,本综述对于对足球动作场景理解领域感兴趣的研究人员提供了宝贵的资源。
Sep, 2023
本文提出了一种基于多阶段范式的方法,通过使用动作认知模型提取高级语义特征和设计转换器来定位目标事件,以检测和确定足球广播视频中事件的发生时间,并在 SoccerNet-v2 Challenge 中获得了最新的表现,在动作识别和重播地面任务上均表现出最先进的性能。
Jun, 2021
本文主要介绍了一种基于图的方法,通过将球员、裁判和守门员表示为图中的节点,并将它们的时序交互建模为一系列图形,提高了足球视频中行动定位的准确性,对于该方法的测试结果,对于球员分类任务达到了 97.72% 的准确率,在结合音频和视频多模态信息后行动定位任务的平均 - mAP 表现达到了 57.83%,在与其他基于计算的方法相比表现卓越且可竞争性强。
Nov, 2022
本文提出了一种主动学习框架,通过选择最具信息量的视频样本加速模型训练和优化算法,实现在减少注释工作量的同时提高在足球视频中的行为检测精度,适用于通过降低注释时间,提高数据效率来加速注释运动领域数据集的应用。
Apr, 2023
该研究介绍了 SoccerNet,这是一个针对足球视频中动作定位的基准数据集,涵盖 2014 年至 2017 年三个赛季的六个欧洲主要联赛中的 500 场比赛,其中自动分析了 6,637 个事件的时间注释。作者们利用了通用动作识别和检测的最新进展,提供了针对足球事件检测的强大基线。
Apr, 2018
该论文提出了一种轻量级的、具有模块化特性的网络,用于识别足球比赛中的事件,并且能够同时预测该事件的类别和时间偏移量;在使用标准特征测试时,与当前最新技术相比,该方法的平均精度提高了 3 个百分点,并且与强 2D 骨干网络结合微调后,在测试集上的平均精度提高了超过 10 个百分点。
Feb, 2021
本文提出了一种新的损失函数,它特别考虑了每个动作周围的时间上下文,而不是只关注于单个时间戳,然后在 SoccerNet 上测试表现,取得了 12.8%的改进,同时展示了该方法用于通用活动提议和检测的泛化能力,进而探讨了足球视频中动作定位的挑战和损失函数如何用于自动生成亮点。
Dec, 2019
本文提出了一个研究,探讨在足球视频中进行多模态(音频和视频)的动作定位和分类。我们使用了 SoccerNet 基准数据集,并评估了在不同的深度神经网络结构中整合音频流的几种方法,并观察到在动作分类任务和动作定位任务中平均平均精度 (mAP) 指标分别提高了 7.43%和 4.19%。
Nov, 2020