自监督适应深度神经网络实现机器人视觉操作

Oct, 2019

自监督适应深度神经网络实现机器人视觉操作

Self-Supervised Sim-to-Real Adaptation for Visual Robotic Manipulation

Rae Jeong, Yusuf Aytar, David Khosid, Yuxiang Zhou, Jackie Kay...

TL;DR使用深度强化学习隐式地在仿真环境中学习潜在的状态表示，并通过无标签的真实机器人数据将其调整到真实环境中，以实现从像素中执行操作任务。通过序列自监督目标优化对比正向动力学损失，提出了一种更加有效的方法，成功地训练基于视觉的强化学习智能体来堆叠方块。

Abstract

Collecting and automatically obtaining reward signals from real robotic visual data for the purposes of training reinforcement learning algorithms can be quite challenging and time-consuming. Methods for utilizing unlabeled data can have a huge potential to further accelerate robotic learning

robotic learning state representation deep reinforcement learning unlabeled real robot data sim-to-real transfer

发现论文，激发创造

自监督学习图像嵌入以进行连续控制

本研究探讨了完全自我监督的学习方法，基于状态达成最短时间来实现通用图像嵌入和控制基元，同时介绍了一种新的状态操作价值函数结构，建立了模型自由和模型基础方法之间的联系，并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。

Jan, 2019

基于机械臂的仿真到实际深度强化学习用于拾取和放置

该研究提出了一种自监督视觉深度强化学习方法，使得机器人可以有效地在模拟环境和真实环境之间直接转移训练模型，并特别设计了一种高度敏感的行动策略用于处理拥挤和堆叠的物体，实验证明即使没有经过实际环境微调，该模型在真实吸附任务中的吸附成功率也能保持较高，还能在真实实验中吸附新物体并保持 90% 的成功率。

Sep, 2023

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

学习生成增强图像用于模拟到真实场景的策略迁移

本文探讨在模拟环境中学习机器人操作策略的方法，通过使用深度图像数据的随机扩增策略，实现了在非真实场景下学习并获得了验证。

Mar, 2019

通过重试实现鲁棒性：基于自监督学习的闭环机器人操作

本文提出了一种方法，从原始图像观测中自动学习机器人技能，利用自主收集的经验，通过结合自监督算法对图像对准的学习和基于视频预测的控制器进行组合，能够使机器人从零开始，仅使用原始视觉输入就可以学习到复杂的行为，并进行成功的复杂操作，该方法在实验中表现出了很好的结果。

Oct, 2018

时间对比网络：从视频中进行自监督学习

提出了一种自监督学习的方法，可以从多个视角拍摄的未标记视频中学习表征和机器人行为，能够用于机器人模仿人类的对象交互和身体姿势，训练该模型使用度量学习损失，使该模型能够发现在不同视角下发生变化但在时间域内不发生变化的属性，并可在强化学习算法中用作奖励函数。

Apr, 2017

通过视觉规划和执行学习机器人操作

本文提出了一种基于数据驱动的建模方法，利用深度生成模型学习目标定向的物体操作，采用视觉规划和视觉跟踪控制解决目标检测问题。

May, 2019

RL-CycleGAN: 强化学习感知的模拟到真实领域的对抗生成网络

本论文提出了基于深度神经网络的强化学习在机器人抓取任务中的应用，以及利用生成模型进行图像仿真与真实环境之间的过渡。其中引入了 RL-scene 一致性损失用于图像翻译，可保证翻译操作是不变的，并在实现无监督领域转换的同时，训练出了 RL-CycleGAN 模型，该模型表现出了模拟到现实环境下最优的效果。

Jun, 2020

元强化学习在模拟到真实领域适应中的应用

本论文提出了一种基于元学习的方法，在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时，训练机器人智能体以适应各种动态条件，以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后，在 KUKA LBR 4 + 机器人上应用此策略，并在将曲棍球击向目标的任务中评估其性能。实验结果表明，与基准表现相比，这种方法具有更一致和稳定的域适应性，从而获得了更好的整体性能。

Sep, 2019

未来的重点：基于模型的强化学习中的自监督对应

本文提出基于自监督视觉对应学习的模型预测方法，证明了这种方法能够在视觉学习的强化学习中实现明显的性能提升，并通过模拟实验和硬件实验的验证显示出在一些情境下，这种预测模型具有更好的泛化性能。

Sep, 2020