从视频中的时空关系中进行自监督学习姿态嵌入

ICCVAug, 2017

从视频中的时空关系中进行自监督学习姿态嵌入

Self-supervised Learning of Pose Embeddings from Spatiotemporal Relations in Videos

Ömer Sümer, Tobias Dencker, Björn Ommer

TL;DR通过自我监督学习利用时空关系进行姿态嵌入的深度卷积网络，包括时序和空间任务，在数据采样中利用一种课程学习方法，并挖掘单个视频中的重复姿态，以提高姿势估计和检索效果。

Abstract

human pose analysis is presently dominated by deep convolutional networks trained with extensive manual annotations of joint locations and beyond. To avoid the need for expensive labeling, we exploit spatiotemporal relations in training videos for →

human pose analysis self-supervised learning siamese convolutional network curriculum learning pose embeddings

发现论文，激发创造

视频中多人姿态估计和跟踪的自监督关键点对应

为了解决视频标注成本高的问题，本文提出了一种方法，利用关键点对视频中的人进行关联。该方法在大规模图像数据集上进行自我监督训练，并与自上而下的人体姿势估计框架相结合，使用关键点对视频帧中的人进行关联，从而实现多帧姿态估计和多人姿态跟踪的最先进结果。

Apr, 2020

Thin-Slicing Network: 视频中姿态估计的深度结构模型

本文提出了一种深度结构模型，用于在不受限制的视频中预测人体姿态序列，借助于深度卷积神经网络、时间信息和领域知识，该模型能够同时表示身体关节的外观和它们的时空关系，并有效约束骨骼结构和强制时间一致性。在两个广泛使用的基准测试数据集上评估该架构，取得了比现有最先进方法更好的性能表现。

Mar, 2017

视频中三维手姿和网格估计的时空感知自监督学习

本研究提出了一种新的训练 3D 手势估计模型的框架，使用自监督学习模型（TASSN）从仅具有 2D 信息的视频中学习，通过强制时间一致性约束，TASSN 可以学习从视频中推断 3D 手势和网格的技能，并且实验证明了该模型的 3D 估计精度与目前最先进的基于 3D 注释的模型在同等级别上，强调了时间一致性在限制 3D 预测模型方面的优点。

Dec, 2020

时间对比网络：从视频中进行自监督学习

提出了一种自监督学习的方法，可以从多个视角拍摄的未标记视频中学习表征和机器人行为，能够用于机器人模仿人类的对象交互和身体姿势，训练该模型使用度量学习损失，使该模型能够发现在不同视角下发生变化但在时间域内不发生变化的属性，并可在强化学习算法中用作奖励函数。

Apr, 2017

基于部件导向的新颖图像合成的自监督三维人体姿态估计

本文提出了一种基于自监督学习的框架，利用单个基于零件的 2D 木偶模型、人体姿势约束和一组未配对的 3D 姿势来区分摄像机捕捉的人体姿态中的变化，从而在不同视频中提高多个任务的性能，包括 3D 姿势估计和部分分割。

Apr, 2020

时间嵌入：基于时空数据的可扩展无监督时序表征学习，用于多模态计算机视觉

地理空间活动与土地利用类型之间存在相关性。提出一种新颖的自监督方法，基于运动活动时间序列对景观进行分层。时间序列信号首先转换到频域，然后通过压缩自编码器转换为与任务无关的时间嵌入，该方法保留了时间序列中观察到的循环时间模式。通过深度语义分割，将像素级嵌入转换为类似图像的通道，可用于基于任务的异模态建模和下游地理空间任务的建模。实验证明，时间嵌入是时间序列数据的语义有意义的表示方法，并且在不同的任务中如分类住宅区和商业区等有着良好的效果。时间嵌入将时空运动轨迹数据转换为语义有意义的类似图像的张量表示，可以与其他数据模态（如 RBG 图像、道路网络的图嵌入、被动采集的 SAR 图像等）相结合进行多模态学习，从而促进地理空间计算机视觉中的多模态学习。多模态计算机视觉对于训练地理空间特征检测的机器学习模型以保持地理空间映射服务实时更新是至关重要的，可以显著提高用户体验和用户安全。

Oct, 2023

姿态嵌入：学习匹配人体姿态的深度架构

本文提出了一种用于学习将身体相似姿势的图像放置在附近的 embedding 方法，该方法可以作为一种直接比较基于人体姿势的图像的方法，避免了估计身体关节位置的潜在挑战。通过三元组距离准则构建了姿态嵌入学习，采用深度架构，使能够学习区分不同姿态的表征，文中的实验在人体姿态匹配和从视频数据中检索上展示了该方法的潜力。

Jul, 2015

通过神经渲染在静态视频中进行自监督的三维人体姿势估计

本文介绍了一种利用自监督学习估算不需要人工标注的静态背景下单个人物的 2D 视频帧生成 3D 人体姿势的方法。作者采用射线投射技术进行人体模板的渲染，使神经网络可以对渲染结果进行优化，从而获得了令人满意的结果。

Oct, 2022

无监督视频理解 —— 通过协调姿态相似性

采用基于视频序列的完全无监督深度学习过程，该过程可以描述一个活动的最基本组成部分，即单个姿势及其独特的过渡。

Aug, 2017

通过预测动态和外观统计信息进行视频自监督时空表示学习

在没有人工标注标签的前提下，本文提出了一种自我监督学习方法来学习视频的时空特征，通过回归时空维度上的外观和运动统计量来提取视觉特征，并在视频分类任务中验证了其有效性。

Apr, 2019