深度视觉预见性规划机器人动作

Oct, 2016

Deep Visual Foresight for Planning Robot Motion

Chelsea Finn, Sergey Levine

TL;DR本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Abstract

A key challenge in scaling up robot learning to many skills and environments is removing the need for human supervision, so that robots can collect their own data and improve their own performance without being limited by the cost of requesting human feedback. →

robot learning model-based reinforcement learning deep action-conditioned video prediction models model-predictive control nonprehensile manipulation

发现论文，激发创造

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

使用时间跳连的自监督视觉规划

该研究旨在通过直接进行视频预测来实现自监督机器人学习，通过引入具有时间跳转连接的视频预测模型和新颖的规划准则和行动空间公式，研究表明该模型在机器人操作中具有很好的性能。

Oct, 2017

可执行模型：无监督离线强化学习的机器人技能

本文提出了使用自回归进行离线机器人技能学习，并通过先前的数据学习环境的形式理解，该方法可以处理高维相机图像，可以学习到许多技能，并通过一系列技术进行训练，此方法具有较强的泛化能力，可以在多个目标之间进行目标链接，通过预训练或辅助目标学习到丰富的表示。

Apr, 2021

自我先见力：智能体视觉动作预测作为强化学习的规范化方法

以运动预测为基础的自我监督方法 Ego-Foresight 可提高强化学习算法的效果和性能。

May, 2024

深度预测策略训练采用强化学习

通过使用深度预测策略训练框架，该研究提出了一种有效的方法来训练预测动作策略，使用合成和模拟训练样本来强制进行视觉和运动数据的抽象，以及使用策略搜索强化学习方法来训练每个任务的策略超层，该框架在 PR2 机器人上训练物体抓取和投球等技能任务，并且训练样本只使用了约 180 次实际机器人尝试，达到了很好的效果。

Mar, 2017

面向基于视觉的深度强化学习的机器人运动控制

本文介绍了一种基于机器学习的系统，用于仅基于视觉感知控制机器人操作器。首次展示了只从原始像素图像学习机器人控制器的能力，而不需要对配置有任何先前知识。我们建立在最近深度强化学习的成功基础之上，并开发出一种利用外部视觉观察学习三关节机器人操作器目标到达的系统。经过在仿真中的训练后，Deep Q 网络（DQN）被证明能够执行目标到达。将网络转移到真实硬件和真实观察的朴素方法失败了，但实验证明在用合成图像代替相机图像时，网络可以正常工作。

Nov, 2015

通过重试实现鲁棒性：基于自监督学习的闭环机器人操作

本文提出了一种方法，从原始图像观测中自动学习机器人技能，利用自主收集的经验，通过结合自监督算法对图像对准的学习和基于视频预测的控制器进行组合，能够使机器人从零开始，仅使用原始视觉输入就可以学习到复杂的行为，并进行成功的复杂操作，该方法在实验中表现出了很好的结果。

Oct, 2018

未来的重点：基于模型的强化学习中的自监督对应

本文提出基于自监督视觉对应学习的模型预测方法，证明了这种方法能够在视觉学习的强化学习中实现明显的性能提升，并通过模拟实验和硬件实验的验证显示出在一些情境下，这种预测模型具有更好的泛化性能。

Sep, 2020

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需 1-4 个小时与实际世界进行交互。

Apr, 2019

异步离线更新下的机器人操作深度强化学习

本文介绍一种基于深度 Q 函数算法的深度强化学习方法，能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习，并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。

Oct, 2016