无监督学习用于控制的视觉三维关键点

ICMLJun, 2021

无监督学习用于控制的视觉三维关键点

Unsupervised Learning of Visual 3D Keypoints for Control

Boyuan Chen, Pieter Abbeel, Deepak Pathak

TL;DR该文介绍了一种学习 3D 几何结构的算法，可用于从高维图像中学习感觉运动控制策略，其发现的 3D 关键点能够在时间和 3D 空间上一致地捕获机器人关节和物体移动，成果在强化学习基准测试中优于之前的最佳方法。

Abstract

Learning sensorimotor control policies from high-dimensional images crucially relies on the quality of the underlying visual representations. Prior works show that structured latent space such as visual keypoints often outperforms unstructured representations for →

sensorimotor control visual representation 3d geometric structure robotic control reinforcement learning

发现论文，激发创造

S3K: 自监督语义关键点多视角一致性用于机器人操作

本文探讨机器人行动的基本局限性和现有的视觉表征学习方法存在的问题，并提出利用语义三维关键点作为视觉表征的方法，通过半监督训练，使其精度达到毫米级别，能够帮助定义强化学习的奖励函数并作为代理训练的有效表征。

Sep, 2020

从视频中无监督学习物体结构和动力学

本研究针对无监督的视频对象结构和动态提取及预测的挑战，采用基于关键点的图像表示方法，并在关键点的动力学模型上进行学习，以实现像素空间中的稳定学习和错误复合的避免。该方法在像素级视频预测和需要物体级运动动态理解的下游任务方面均优于非结构化表示，并在多个数据集和任务中进行了评估和验证。

Jun, 2019

从图像中进行的无监督三维结构学习

本文提出一种从 2D 图像中学习生成 3D 结构的深度生成模型，并通过概率推断从 3D 和 2D 图像中恢复这些结构，从而实现了第一个纯无监督学习下学习推断 3D 表示的方法，并在几个数据集上建立了基准模型。

Jul, 2016

未来的重点：基于模型的强化学习中的自监督对应

本文提出基于自监督视觉对应学习的模型预测方法，证明了这种方法能够在视觉学习的强化学习中实现明显的性能提升，并通过模拟实验和硬件实验的验证显示出在一些情境下，这种预测模型具有更好的泛化性能。

Sep, 2020

基于无监督学习的目标关键点感知与控制

本研究旨在学习控制和强化学习（RL）有用的对象表示。我们介绍了 Transporter，这是一种神经网络体系结构，用于以关键点或图像空间坐标的形式发现简明的几何对象表示。

Jun, 2019

KeypointDeformer: 无监督 3D 关键点发现的形状控制

介绍一种新的无监督方法 KeypointDeformer，通过自动发现的 3D 关键点进行形状控制，并通过比较两个对象的潜在表示来分析其形状差异，并通过 3D 关键点和形状变形算法将源对象变形为目标对象。

Apr, 2021

使用三维先验增强二维表示学习

通过在训练过程中直接强制将强大的三维结构先验性知识融入模型，我们提出了一种新的方法来加强现有的自监督学习方法，并通过一系列数据集实验证明了我们的三维感知表示比传统的自监督基线更加稳健。

Jun, 2024

通过端到端几何推理发现潜在的三维关键点

本文提出了 KeypointNet，这是一个端到端的几何推理框架，用于学习一组最优的类别特定 3D 关键点及其检测器。通过对一张单独图片，KeypointNet 提取出用于下游任务优化的 3D 关键点，我们在 3D 姿势估计方面展示了这种框架，并提出了一个可微的目标，以寻求在两个对象视图之间恢复相对姿态的最佳关键点集。我们的模型在对象类别的不同视角和实例之间发现了几何和语义一致的关键点，重要的是，我们发现我们的端到端框架在不使用地面真值关键点注释的情况下胜过使用相同神经网络架构的完全监督基线在姿势估计任务上，在 ShapeNet 的汽车，椅子和飞机类别上可视化出发现的 3D 关键点。

Jul, 2018

基于单目神经网络的连续视角控制图像渲染

本文提出了一个自监督学习的方法，通过深度引导的调整过程，利用变换自编码器的网络结构，在只有 2D 图像和相关视角变换的情况下精确合成高质量的 3D 对象或场景的新视角，并实现了细粒度和精密的六自由度视角控制。通过在合成和真实场景以及精细和固定视角设置下的彻底评估，证明了该方法的广泛适用性。

Jan, 2019

利用深度视觉描述符进行分层高效定位

该论文提出了一种利用深度学习技术进行分层定位的方法，仅在候选位置上计算 2D-3D 匹配的精确位姿估计，从而实现在流行的移动平台上实时运行并拥有最先进的本地化性能，为机器人研究带来了新的前景。

Sep, 2018