使用注意机制的 3D CNNs 基准方法 - MediaEval 2022 体育任务

Feb, 2023

使用注意机制的 3D CNNs 基准方法 - MediaEval 2022 体育任务

Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using Attention Mechanisms

Pierre-Etienne Martin

TL;DR本文介绍了用于媒体评估 2022 排行榜中运动视频任务的基础方法，该任务包括修剪视频的击球分类和未修剪视频的击球检测。我们为解决这两个子任务提出了两种 3D-CNN 架构，它们都使用了时空卷积和注意机制。基于我们的 v2 模型，分类子任务的基线方法达到了 86.4% 的准确度。对于检测子任务，基线方法使用 v1 模型实现了 0.131 的 mAP 和 0.515 的 IoU。该基线方法已公开在线共享，旨在帮助研究人员解决视频处理、训练方法、评估和提交等方面的问题。

Abstract

This paper presents the baseline method proposed for the sports video task part of the mediaeval 2022 benchmark. This task proposes two subtasks: stroke classification from trimmed videos, and stroke detection fr

sports video mediaeval 2022 3d-cnn spatio-temporal convolutions attention mechanisms

发现论文，激发创造

使用双流卷积网络的 RGB 和姿态信息进行细粒度动作检测

本论文提出了一种基于卷积神经网络和注意机制的两流网络方法，用于对乒乓球发球进行分类和检测，其中使用了原始 RGB 数据和 MMPose 工具箱计算的姿势信息，采用后期融合方法进行性能提升，并在 TTStroke-21 数据集上进一步评估，对飞球分类的准确率提高了到 87.3％，而检测结果虽没有超过基准，但仍可达到 0.349 的 IoU 和 0.110 的 mAP。

Feb, 2023

三流 3D/1D CNN 在乒乓球细粒度动作分类和分割中的应用

该研究提出了一种基于三流网络的多模态融合方法，用于细粒度体育动作分类，其中包括原始 RGB 数据、计算的光流和估计的运动员姿态，应用于 TTStroke-21 数据集，比以前的方法收敛更快，在分类已知时间边界的运动和关节分割和分类方面表现更好。

Sep, 2021

媒体评估 2022 年：视频乒乓球运动细粒度动作检测和分类任务

这篇研究主要研究乒乓球比赛的视频分析，旨在检测和分类运动员微小的动作，并提供给教练和运动员工具来评估他们的比赛表现。

Jan, 2023

香港中文大学、苏黎世联邦理工学院、深圳先进技术研究院 ActivityNet Challenge 2016 提交

本文介绍了我们提交至 ActivityNet Challenge 2016 非修剪视频分类任务的方法。我们使用基于时间段网络的基本流程，并通过其他技术提高模型性能。我们使用最新的深度模型体系结构，如 ResNet 和 Inception V3，并引入了新的聚合方案（top-k 和注意力加权池化）。此外，我们以音频作为补充通道，通过应用于频谱图的卷积神经网络提取相关信息。通过这些技术，我们导出了一个深度模型集合，它们共同在测试集上取得了高分类精度（mAP 93.23％），并获得了挑战赛的第一名。

Aug, 2016

利用二维人体姿态估计进行乒乓球拍技术识别

本文介绍了一种收集乒乓视频数据并进行击球检测和分类的新方法，使用 2D 姿势估计开发的时空卷积神经网络模型能够对这 11 种乒乓球击球进行多分类，以提高运动员的性能。

Apr, 2021

利用深度学习进行多媒体数据分类的智能 3D 网络协议

本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构，用于视频分类和动作识别，在研究方面取得了良好的性能，可以识别出 UCF101 数据集中的动作（准确率达到 95%）

Jul, 2022

三流网络用于增强动作识别

该论文提出了两种基于 CNN 的体系结构，包括三种流，可以分别捕捉不同速率的空间和时间信息，并使用双向 LSTM 和注意力机制进一步提高模型性能，实现了人类动作识别任务的最先进表现。

Apr, 2021

时空三维卷积神经网络能否重追二维卷积神经网络和 ImageNet 的历史？

本研究旨在确定当前视频数据集是否有足够的数据来训练带有时空三维卷积核的非常深的卷积神经网络。我们研究了从相对浅的到非常深的各种三维卷积神经网络的架构，并得出结论：Kinetics 数据集具有训练深度三维卷积神经网络的足够数据，与 ImageNet 上的 2D ResNets 类似，ResNeXt-101 在 Kinetics 测试集上达到了 78.4％的平均准确率。预训练的简单 3D 架构优于复杂的 2D 架构，并且预训练的 ResNeXt-101 分别在 UCF-101 和 HMDB-51 上达到了 94.5％和 70.2％的准确率。我们相信，将深度 3D 卷积神经网络与 Kinetics 数据集结合使用，将重温 2D 卷积神经网络和 ImageNet 的故事，并促进视频计算机视觉的进步。

Nov, 2017

关注潜水分类的时空表征学习

本文提出了一种基于注意力引导的 LSTM 神经网络架构，用于跳水视频的分类任务，并在最近引入的 Diving48 比赛跳水大数据集上对算法性能进行了评估。结果表明，该模型在 2D 和 3D 框架中的分类准确度分别提高了 11.54% 和 4.24%，并且能够在没有这种监督情况下对视频帧中的跳水运动员进行定位。

Apr, 2019

利用卷积神经网络将连续视频转换为简单的信号以进行游泳姿势检测

利用卷积神经网络（CNN）可以在体育领域中自动检测运动员动作的离散事件，提高了视频分析的精度和效率。

May, 2017