AVA 任务中更好的基准模型
使用 Context-Aware RCNN 方法,将 RoI-Pooling 基于管道的惯常思维挑战,填补了视频行为检测中的空白,迎来了新的思路。
Jul, 2020
本文介绍了我们参与 CVPR2022 AVA 挑战赛的技术细节,包括数据增强和模型选择、训练策略、和整合不同分割框架等方面,实验结果表明我们的方法在 AVA 测试集上取得了显著的效果。
Jun, 2022
本文提出一种用于动作识别的多类型关系建模方法,并采用训练策略将多种关系建模集成到两个大规模视频数据集的端对端训练中去。同时,结合记忆库的学习和面向长尾数据分布的微调方法,以进一步提高性能,最终在 AVA-Kinetics 测试集中实现了 40.67 mAP 的成绩。
Jun, 2021
本文介绍了我们在 ActivityNet Challenge 2020 竞赛中获胜的解决方案,该方案主要基于演员 - 背景 - 演员关系网络,在 AVA-Kinetics 数据集上实验,并取得了 39.62 mAP 的高分。
Jun, 2020
本文提出了一种新型的预训练特征深度学习方法,可以有效评估美学质量。该方法采用全分辨率图像作为输入,并允许变量输入大小的训练,从而取得了显著的性能提高,并在目前最大的美学数据库 AVA 数据集上将基础事实平均意见分数的 Spearman 秩倒相关系数从 0.612 提高到 0.756。该方法依靠 IncepResNet-v2 网络的预训练层和浅层 CNN 体系结构的空间池化特征实现。
Apr, 2019
介绍一个新的视频数据集 AVA,其中定义了 80 个原子视觉动作并进行了精确的时空注释,可以帮助改进动作识别。提出了一种基于现有方法的新方法,针对 JHMDB 和 UCF101-24 类别的表现更佳,但在 AVA 上仍需开发新的视频理解方法,表明该数据集暴露了动作识别的内在困难。
May, 2017
本研究基于 Kinetics 数据集重新评估最先进的体系结构,并引入一种新的双流膨胀 3D ConvNet(I3D),该 ConvNet 可以在视频中学习无缝的时空特征提取器,利用成功的 ImageNet 架构设计及其参数,经过在 Kinetics 上的预训练后,I3D 模型在动作分类方面表现明显提高。
May, 2017
该论文介绍了 AVA-Kinetics 本地化人类行为视频数据集,其中包含超过 230k 个帧,对每个人的关键帧进行了 80 个 AVA 动作类的注释,通过视频行动变换网络在 AVA-Kinetics 数据集上进行了基线评估,并证明了在 AVA 测试集上行动分类的表现有所改善。
May, 2020
本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作,使用 Transformer 风格的架构聚合人物周围的时空背景特征,通过高分辨率、个性化、类别不可知的查询,该模型自动学习跟踪个人并从他人的动作中获取语义上下文
Dec, 2018