AVA 任务中更好的基准模型

CVPRJul, 2018

A Better Baseline for AVA

Rohit Girdhar, João Carreira, Carl Doersch, Andrew Zisserman

TL;DR该研究提出了一个基于 Faster R-CNN 和 I3D 模型的简单 baseline，用于在 AVA 数据集上进行动作定位，最终模型在验证集上获得了 22.8％/21.9％的 AP，表现优于 CVPR 2018 挑战中的所有提交项。

Abstract

We introduce a simple baseline for action localization on the AVA dataset. The model builds upon the faster r-cnn bounding box detection framework, adapted to operate on pure →

action localization avd dataset i3d model faster r-cnn spatiotemporal features

发现论文，激发创造

上下文感知 RCNN：视频中动作检测的基线

使用 Context-Aware RCNN 方法，将 RoI-Pooling 基于管道的惯常思维挑战，填补了视频行为检测中的空白，迎来了新的思路。

Jul, 2020

CVPR2022 AVA 辅助视觉与自主性挑战赛第三名解决方案

本文介绍了我们参与 CVPR2022 AVA 挑战赛的技术细节，包括数据增强和模型选择、训练策略、和整合不同分割框架等方面，实验结果表明我们的方法在 AVA 测试集上取得了显著的效果。

Jun, 2022

时空动作定位的关系建模

本文提出一种用于动作识别的多类型关系建模方法，并采用训练策略将多种关系建模集成到两个大规模视频数据集的端对端训练中去。同时，结合记忆库的学习和面向长尾数据分布的微调方法，以进一步提高性能，最终在 AVA-Kinetics 测试集中实现了 40.67 mAP 的成绩。

Jun, 2021

2020 年 ActivityNet 竞赛中 AVA-Kinetics 交叉赛道第一名解决方案

本文介绍了我们在 ActivityNet Challenge 2020 竞赛中获胜的解决方案，该方案主要基于演员 - 背景 - 演员关系网络，在 AVA-Kinetics 数据集上实验，并取得了 39.62 mAP 的高分。

Jun, 2020

动作检测的结构化模型

本篇论文提出了一种增强标准 I3D 网络的算法，通过添加跟踪模块和图卷积网络结构，将领域知识融入模型，并在活动行为检测中获得了更好的结果表现。

Dec, 2018

多层空间池化特征的有效美学预测

本文提出了一种新型的预训练特征深度学习方法，可以有效评估美学质量。该方法采用全分辨率图像作为输入，并允许变量输入大小的训练，从而取得了显著的性能提高，并在目前最大的美学数据库 AVA 数据集上将基础事实平均意见分数的 Spearman 秩倒相关系数从 0.612 提高到 0.756。该方法依靠 IncepResNet-v2 网络的预训练层和浅层 CNN 体系结构的空间池化特征实现。

Apr, 2019

AVA：时空本地化的原子视觉动作视频数据集

介绍一个新的视频数据集 AVA，其中定义了 80 个原子视觉动作并进行了精确的时空注释，可以帮助改进动作识别。提出了一种基于现有方法的新方法，针对 JHMDB 和 UCF101-24 类别的表现更佳，但在 AVA 上仍需开发新的视频理解方法，表明该数据集暴露了动作识别的内在困难。

May, 2017

行动识别的未来何去何从？一种新模型及动力学数据集

本研究基于 Kinetics 数据集重新评估最先进的体系结构，并引入一种新的双流膨胀 3D ConvNet（I3D），该 ConvNet 可以在视频中学习无缝的时空特征提取器，利用成功的 ImageNet 架构设计及其参数，经过在 Kinetics 上的预训练后，I3D 模型在动作分类方面表现明显提高。

May, 2017

AVA-Kinetics 本地化人类行为视频数据集

该论文介绍了 AVA-Kinetics 本地化人类行为视频数据集，其中包含超过 230k 个帧，对每个人的关键帧进行了 80 个 AVA 动作类的注释，通过视频行动变换网络在 AVA-Kinetics 数据集上进行了基线评估，并证明了在 AVA 测试集上行动分类的表现有所改善。

May, 2020

视频动作转换网络

本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Dec, 2018