TikTokActions: 基于 TikTok 的视频数据集用于人体动作识别
介绍了 DeepMind Kinetics 人类动作视频数据集,包含 400 个动作类别的视频片段,视频时长为 10 秒,并描述该数据集的统计信息、收集方式,以及神经网络在分类和偏差分析方面的性能指标和结果。
May, 2017
本研究基于 Kinetics 数据集重新评估最先进的体系结构,并引入一种新的双流膨胀 3D ConvNet(I3D),该 ConvNet 可以在视频中学习无缝的时空特征提取器,利用成功的 ImageNet 架构设计及其参数,经过在 Kinetics 上的预训练后,I3D 模型在动作分类方面表现明显提高。
May, 2017
描述了 DeepMind Kinetics 人类动作数据集的 2020 版本,扩展并更新了 Kinetics-700 数据集,其中包含来自不同 YouTube 视频的至少 700 个视频剪辑,以及介绍了更新的数据集所做的变化和使用 I3D 网络的基线结果的详细统计。
Oct, 2020
介绍了一个大规模的现实世界数据集,该数据集用于评估人类行为识别的学习技术,进一步提出了在无人干预状态下收集数据和训练的方法,并针对该训练数据出现的语义不一致性问题,提出了一个语义分层结构。
Jun, 2019
介绍了 UCF101,这是一个包含 101 个动作类别的数据集,超过 13k 个剪辑和 27 小时的视频数据,利用标准词袋法对该数据集进行了基线动作识别结果,总体性能为 44.5%。据我们所知,UCF101 目前是由于其大量的类别,大量的剪辑和无约束的特点为最具挑战性的动作数据集。
Dec, 2012
通过建立一个可解释的参数生成数码,我们使用程序生成和其他现代游戏引擎的计算机图形技术生成了一组逼真、多样化和符合物理规律的人类动作视频,含 39,982 个视频。利用 UCF101 和 HMDB51 数据集的实验表明,我们的方法可以通过结合使用大量合成视频和小型真实数据集,大幅提高识别性能,明显优于现有的无监督生成模型的微调。
Dec, 2016
本文介绍了 DeepMind Kinetics 人类行为数据集从 600 类扩展到 700 类的详细更改,并使用 I3D 神经网络架构提供了基线结果和全面的统计数据。
Jul, 2019
该论文介绍了 AVA-Kinetics 本地化人类行为视频数据集,其中包含超过 230k 个帧,对每个人的关键帧进行了 80 个 AVA 动作类的注释,通过视频行动变换网络在 AVA-Kinetics 数据集上进行了基线评估,并证明了在 AVA 测试集上行动分类的表现有所改善。
May, 2020