无监督学习视频中的可解释关键点
本文提出一种以单个图像和动作类别为条件的深度视频预测模型,通过检测物体关键点并将关键点序列预测为未来运动,然后通过平移输入图像来生成未来帧。该方法通过无监督方式训练来检测任意对象的关键点,并使用原始视频的检测关键点作为伪标签学习物体运动,实验结果表明,我们的方法可以应用于各种数据集,而不需要对视频中的关键点进行标注,检测到的关键点类似于人工标注的标签,并且与以前的方法相比,预测结果更加真实。
Oct, 2019
为了解决视频标注成本高的问题,本文提出了一种方法,利用关键点对视频中的人进行关联。该方法在大规模图像数据集上进行自我监督训练,并与自上而下的人体姿势估计框架相结合,使用关键点对视频帧中的人进行关联,从而实现多帧姿态估计和多人姿态跟踪的最先进结果。
Apr, 2020
该研究提出了一种基于 B-KinD 方法的自监督学习方法,使用编码器 - 解码器架构重建视频帧之间的时空差异,仅关注移动区域,探索语义意义的身体部位,可用于昂贵的监督学习替代方案。
Dec, 2021
本文介绍了一种半监督的方法,使用少量标记图像和大量未标记图像同时学习关键点热图和姿态不变的关键点表示,关键点表示的语义一致性约束加以保证,并通过特征空间将图像及其扩充副本的关键点表示紧密地联系在一起,以实现对于人类和动物身体特征点的本土化定位,并在多项基准测试中显著优于先前的方法。
Jan, 2021
利用物体分类内部几何规律的数据驱动姿态估计方法。首先,从 2D RGB 图像学习物体部分的姿态不变局部描述符。将这些描述符与来自固定3D 模板的关键点结合使用,生成给定单眼实际图像的关键点对应图。最后,使用这些关键点对应图,预测物体的3D 姿态。该方法在多个真实环境的视角估计数据集,如 Pascal3D + 与 ObjectNet3D 上的表现达到最佳水平,并且我们公开了所使用方法的代码以鼓励再生研究。
Sep, 2018
本文提出了 UKPGAN,一种基于自我监督的 3D 关键点检测器,通过生成对抗网络与显著信息提炼模块,定位出重要的关键点,进而对物体进行对齐和重建,实验结果表明本方法能够在不同的非刚性变形下处理 SMPL 人体,并具有较好的稳定性和几何注册性能,同时适用于真实场景下的物体检测。
Nov, 2020
三维姿势转换的主要挑战是:1)没有不同角色执行相同姿势的配对训练数据;2)从目标网格中分离姿势和形状信息;3)难以应用于具有不同拓扑结构的网格。因此,我们提出了一种新颖的弱监督基于关键点的框架以克服这些困难。具体而言,我们使用一种与拓扑无关的关键点检测器和逆向运动学来计算源网格与目标网格之间的变换。我们的方法只需要对关键点进行监督,可以应用于具有不同拓扑结构的网格,并且对于目标来说是形状不变的,可以从目标网格中提取仅限于姿势的信息而不传递形状信息。我们进一步设计了一个循环重建来执行自监督姿势转换,而不需要具有与目标和源相同姿势和形状的地面实况变形网格。我们在基准人类和动物数据集上评估了我们的方法,在那里与最先进的无监督方法相比达到了卓越的性能,甚至与完全监督的方法相比具有可比性的性能。我们在更具挑战性的 Mixamo 数据集上进行测试,以验证我们的方法处理具有不同拓扑结构和复杂服装能力。跨数据集评估进一步展示了我们方法的强大泛化能力。
Jul, 2023
该论文提出了一种从单个 RGB 图像中估计物体连续 6-DoF 姿态的方法,该方法结合了经卷积网络预测的语义关键点和可变形的形状模型,同时采用了半自动数据生成技术来训练可学习组件,在实验中该方法达到了与现有技术相当的结果。
Apr, 2022
本研究针对无监督的视频对象结构和动态提取及预测的挑战,采用基于关键点的图像表示方法,并在关键点的动力学模型上进行学习,以实现像素空间中的稳定学习和错误复合的避免。该方法在像素级视频预测和需要物体级运动动态理解的下游任务方面均优于非结构化表示,并在多个数据集和任务中进行了评估和验证。
Jun, 2019