自监督学习图像嵌入以进行连续控制

Jan, 2019

自监督学习图像嵌入以进行连续控制

Self-supervised Learning of Image Embedding for Continuous Control

Carlos Florensa, Jonas Degrave, Nicolas Heess, Jost Tobias Springenberg, Martin Riedmiller

TL;DR本研究探讨了完全自我监督的学习方法，基于状态达成最短时间来实现通用图像嵌入和控制基元，同时介绍了一种新的状态操作价值函数结构，建立了模型自由和模型基础方法之间的联系，并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。

Abstract

Operating directly from raw high dimensional sensory inputs like images is still a challenge for robotic control. Recently, reinforcement learning methods have been proposed to solve specific tasks end-to-end, from pixels to torques. However, these approaches assume the access to a spe

reinforcement learning image embedding control primitives model-free model-based

发现论文，激发创造

自监督适应深度神经网络实现机器人视觉操作

使用深度强化学习隐式地在仿真环境中学习潜在的状态表示，并通过无标签的真实机器人数据将其调整到真实环境中，以实现从像素中执行操作任务。通过序列自监督目标优化对比正向动力学损失，提出了一种更加有效的方法，成功地训练基于视觉的强化学习智能体来堆叠方块。

Oct, 2019

动态感知嵌入

本文提出一种自监督表示学习方法，通过正向预测目标同时学习环境状态和动作序列的嵌入表示，以提高强化学习的采样效率和策略学习性能。研究表明，使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时，结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下，快速、高效地学习高质量的基于目标条件的连续控制策略。

Aug, 2019

使用深度动态模型从图像像素中高效学习反馈策略

本文提出了一种数据有效、基于模型的强化学习算法，通过使用像素信息直接学习闭环控制策略，实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点，并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。

Oct, 2015

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需 1-4 个小时与实际世界进行交互。

Apr, 2019

未来的重点：基于模型的强化学习中的自监督对应

本文提出基于自监督视觉对应学习的模型预测方法，证明了这种方法能够在视觉学习的强化学习中实现明显的性能提升，并通过模拟实验和硬件实验的验证显示出在一些情境下，这种预测模型具有更好的泛化性能。

Sep, 2020

通过重试实现鲁棒性：基于自监督学习的闭环机器人操作

本文提出了一种方法，从原始图像观测中自动学习机器人技能，利用自主收集的经验，通过结合自监督算法对图像对准的学习和基于视频预测的控制器进行组合，能够使机器人从零开始，仅使用原始视觉输入就可以学习到复杂的行为，并进行成功的复杂操作，该方法在实验中表现出了很好的结果。

Oct, 2018

深度空间自编码器用于视觉机器人学习

该研究采用增强学习的方法，通过深度空间自编码器从摄像头图像中直接学习状态表征，以实现对环境进行特征点提取和控制的闭环控制，展示了 PR2 机器人在推动自由玩具方块、使用铲子拿起一袋米和在不同位置将绳环悬挂在钩子上等任务中自动学习控制的成功案例。

Sep, 2015

从像素到力矩：利用深度动力学模型进行策略学习

本研究解决了一个挑战性问题，即训练一个只使用像素信息来学习闭环控制的智能体。我们提出了一种数据高效且基于模型的增强学习算法，其中关键因素是一个深度动态模型，它使用深度自编码器来学习图像的低维嵌入，并结合在这个低维特征空间的预测模型来直接学习闭环策略。与现有的连续状态和动作的强化学习方法相比，我们的方法学习快速、可适应高维状态空间且可扩展性强，这是实现完全自主单从像素到扭矩的学习的重要一步。

Feb, 2015

从视觉观察中学习可操作的表征

本文研究了使用自我监督学习来学习连续控制任务的对抗学习方法。通过将多个帧联合嵌入到嵌入空间中，我们扩展了时间对比网络（TCN），从而能够更准确地编码位置和速度属性。我们证明了这种方法在强化学习任务中有效，可以通过仅使用学习到的嵌入作为输入，使用像 Proximal Policy Optimization（PPO）这样的算法来学习连续控制策略。

Aug, 2018