Dec, 2023

PACE:杂乱环境下的姿态注释

TL;DR在计算机视觉中,姿势估计是一项关键任务,其目的是在图像或视频中跟踪和操作物体。然而,在姿势估计领域,存在缺乏专注于具有遮挡的杂乱场景的大规模数据集的问题。为了解决这个问题,我们引入了 PACE(杂乱环境中的姿势注释),这是一个大规模基准,旨在推动杂乱场景中姿势估计方法的开发和评估。PACE 包括 300 个视频中的 54,945 帧,涵盖了 44 个类别的 576 个物体,并在杂乱场景中包含刚性和关节式物品的混合。为了高效地对真实世界数据进行注释,我们开发了一种使用校准的 3 相机设置的创新注释系统。我们在 PACE 上使用最先进的算法进行了两个方面的测试:姿势估计和物体姿态跟踪,揭示了该基准的挑战和研究机会。我们计划将 PACE 作为公开的评估基准发布,并提供我们开发的注释工具,以促进该领域的进一步发展。我们的代码和数据可在此 https URL 上找到。