APTv2:大规模数据集及其性能超越的动物姿态估计和追踪评测
本文提出了 AP-10K, 首个大规模哺乳动物动物姿态估计基准,提出了包括监督学习、领域迁移和域泛化在内的三个任务以及相应的姿态估计模型,通过实验结果展示了从多种不同动物物种进行学习在准确性和泛化能力方面的优越性,为未来动物姿态估计的研究开辟了新方向。
Aug, 2021
本研究旨在建立 “PoseTrack” 的标准,该标准是一种基于视频的多人姿势估计和关节跟踪的大规模基准,该基准将集合人类视觉分析研究人员的团体,通过提供大型代表性训练数据集,为研究提供平台并客观评估和比较提出的方法。
Oct, 2017
本文介绍了使用深度学习模型结合 AwA Pose 数据集识别四足动物关键点的研究成果,该数据集涵盖了较多动物种类及关键点数量,可以帮助计算机视觉领域研究构建更准确的模型。
Aug, 2021
该论文提出了一种基于最新的人体检测和视频理解技术的轻量化人体关键点估计和跟踪方法,在帧级别和短视频片段中进行关键点估计,并进行轻量级跟踪,领先于多项竞争者,成为 2017 年 ICCV PoseTrack 的关键点跟踪挑战的最佳表现。
Dec, 2017
SuperAnimal 是一种新的解决行为分析中 pose 估计问题的 plug-and-play 解决方案,使用深度学习技术自动提取关键点,无需人工标记,并可应用于超过 45 种物种。
Mar, 2022
提出了 Animal3D 数据集,为哺乳动物的 3D 姿态和形状估计提供了全面的数据集,实验证明跨物种的动物 3D 形状和姿态的预测仍然是一项非常具有挑战性的任务,合成预训练是提高模型性能的一种可行策略。
Aug, 2023
无标记方法的动物姿势跟踪近年来得到发展,但在三维中跟踪大型动物群体的框架和基准仍然缺乏。为了弥补文献中的这一空白,我们提出了 3D-MuPPET,一个使用多视图以交互速度估计和跟踪多达 10 只鸽子的三维姿势的框架。我们训练了一个姿势估计器来推断多只鸽子的 2D 关键点和边界框,然后将关键点三角化为三维。对于对应匹配,我们首先动态地将 2D 检测匹配到第一帧的全局身份,然后使用 2D 跟踪器在后续帧中保持对应关系。我们在均方根误差 (RMSE) 和正确关键点的百分比 (PCK) 方面实现了与最先进的 3D 姿势估计器相当的准确度。我们还展示了一个新颖的用例,即我们使用单只鸽子的数据训练的模型在包含多只鸽子的数据上提供了可比较的结果。这可以简化到新物种的领域转变,因为注释单个动物数据的工作量比多个动物数据的工作量小。此外,我们对 3D-MuPPET 的推断速度进行了基准测试,在 2D 中为每秒 10 帧,在 3D 中为每秒 1.5 帧,并进行了定量跟踪评估,取得了令人鼓舞的结果。最后,我们展示了 3D-MuPPET 在室内和室外环境中无需模型微调即可运行的能力,据我们所知,我们是首次提出在室内和室外环境中工作的 2D/3D 姿势和轨迹跟踪框架。
Aug, 2023
传统的 2D 姿态估计模型局限于其特定类别的设计,限定了其适用范围,对于新颖对象缺乏相关训练数据的情况尤其具有挑战性。为了应对这一局限性,引入了无类别限制的姿态估计(CAPE)方法,在仅需标注关键点的最小支持图像的情况下,实现了任意对象类别的关键点定位。我们提出了一种利用新设计的图转换解码器的 CAPE 新方法,通过捕捉和整合关键点之间固有的几何关系信息,进一步提高了关键点定位的准确性,与传统 CAPE 技术将关键点视为孤立实体的方式存在显著区别。我们在包含超过 100 个类别的 20,000 多张图像的 MP-100 基准数据集上验证了我们的方法,与之前最先进的方法相比,本方法在 1-shot 和 5-shot 设置下均取得了显著的改进,分别达到了 2.16%和 1.82%的提升。此外,与之前的 CAPE 方法相比,我们的方法的端对端训练表现出良好的可扩展性和效率。
Nov, 2023
使用合成的经验姿势先验从未标记图像中估计 2D 鼠标身体姿势的方法可以在缺少注释的情况下探测和测量动物行为,展示了对其他动物物种的潜力。
Jul, 2023