从稀疏标注的视频学习时态姿态估计

Jun, 2019

从稀疏标注的视频学习时态姿态估计

Learning Temporal Pose Estimation from Sparsely-Labeled Videos

Gedas Bertasius, Christoph Feichtenhofer, Du Tran, Jianbo Shi, Lorenzo Torresani

TL;DR通过对稀疏标注的训练视频进行 PoseWarper 网络训练，提出了一种减少需要稠密注释的方法，并借助变形卷积来隐式学习姿态变形，从而在全视频范围内生成姿态注释，并可能改善姿态估计的准确性。

Abstract

Modern approaches for multi-person pose estimation in video require large amounts of dense annotations. However, labeling every frame in a video is costly and labor intensive. To reduce the need for →

multi-person pose estimation temporal propagation label propagation deformable convolutions dense annotations

发现论文，激发创造

Warp-Refine 传播：通过循环一致性实现半监督自动标注

本文提出了一种新的标签传播方法，即 Warp-Refine Propagation，通过将几何和语义线索结合起来，半监督地利用时间轴上的循环一致性，学习精细地修正几何变形的标签并将它们与学习到的语义先验相结合，以高效地自动标注视频序列，这种方法显著提高了标签传播的表现，并实现了在三个语义分割基准上的竞争性结果 improvement。

Sep, 2021

使用时域卷积和半监督训练进行视频中三维人体姿态估计

本文提出了一种基于卷积神经网络的 3D 姿势估计方法，并结合反向投影技术实现了半监督训练，结果表明该模型在无监督和半监督情况下准确性都得到了明显提高。

Nov, 2018

从视频中的时空关系中进行自监督学习姿态嵌入

通过自我监督学习利用时空关系进行姿态嵌入的深度卷积网络，包括时序和空间任务，在数据采样中利用一种课程学习方法，并挖掘单个视频中的重复姿态，以提高姿势估计和检索效果。

Aug, 2017

从多视角图像学习单目三维人体姿态估计

本文提出了一种通过多视角的训练，使用一致性约束联合监督损失及惩罚项实现替代大量标注的 3D 人体姿态估计方法，并提出了一种联合估计相机姿态及人体姿态的方法，在 3D 人体姿态估计方面取得了良好的表现。

Mar, 2018

利用时间信息进行三维姿态估计

本文提出了一种基于 LSTM 网络，使用时间信息提高 2D 关节点坐标序列估算 3D 姿势的鲁棒性和一致性，实验在 Human3.6M 上提高了 12.2% 的精度。

Nov, 2017

视频中高效姿势估计的关键帧提取网络

本文提出一种将局部信息和全局信息相结合的方法，使用轻量级的无监督关键帧提出网络 (K-FPN) 来选择含有代表性信息的帧，再使用学习的字典来恢复整个动作序列的人体姿态估计算法。在实验中，该方法在 Penn Action 和 sub-JHMDB 数据集上达到了最佳准确率，并实现了大量的速度提升。

Jul, 2020

Slim DensePose: 从稀疏注释和运动线索中进行经济学习

本文提出了一种更加高效的 DensePose 数据采集策略，即在视频帧中收集标记，并利用视频的动态传播地面真实注释，该方法可以通过提取视频中的运动线索来提高姿态估计结果。

Jun, 2019

深度双连续网络用于人体姿态估计

本文提出了一种基于多帧和时序信息的人体姿态估计方法。该方法包含三个模块：姿态时序合成器、姿态残差融合模块和姿态校正网络。在 PoseTrack2017 和 PoseTrack2018 数据集上进行的实验结果表明，该方法取得了最佳效果，并已发布代码以期促进未来的研究。

Mar, 2021

MetaPose: 无需 3D 监督，快速从多视图中获得 3D 姿态

本文介绍如何使用神经网络模型进行多摄像头人体姿势估计，在考虑多角度遮挡及联合位置不确定性情况下，使用 2D 关键点数据进行训练。相比于经典捆绑调整与弱监督单目 3D 基线方法，我们的模型在 Human3.6M 和 Ski-Pose PTZ 数据集上表现更好。

Aug, 2021

视频中多人姿态估计和跟踪的自监督关键点对应

为了解决视频标注成本高的问题，本文提出了一种方法，利用关键点对视频中的人进行关联。该方法在大规模图像数据集上进行自我监督训练，并与自上而下的人体姿势估计框架相结合，使用关键点对视频帧中的人进行关联，从而实现多帧姿态估计和多人姿态跟踪的最先进结果。

Apr, 2020