非抓取性操作的强化学习：从仿真到物理系统的转移

Mar, 2018

非抓取性操作的强化学习：从仿真到物理系统的转移

Reinforcement learning for non-prehensile manipulation: Transfer from simulation to physical system

Kendall Lowrey, Svetoslav Kolev, Jeremy Dao, Aravind Rajeswaran, Emanuel Todorov

TL;DR本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Abstract

reinforcement learning has emerged as a promising methodology for training robot controllers. However, most results have been limited to simulation due to the need for a large number of samples and the lack of automated-yet-safe data collection methods. Model-based →

reinforcement learning model-based learning physical system natural policy gradient algorithm ensemble of models

发现论文，激发创造

从模拟到机器人的触觉基连续力控制策略转移

使用触觉传感器，并通过模型无关的深度强化学习方法实现力量控制，能够在仿真环境中进行训练，然后转移到实际机器人上，实现模拟到实际的迁移。

Nov, 2023

相互对齐迁移学习

通过强化学习在模拟环境中训练机器人并结合补充奖励策略，与真实机器人进行进一步的微调来优化探索策略，实验结果表明，这种相互对齐的方法可以在真实和模拟环境中实现更好的性能。

Jul, 2017

反馈即所需：基于近似物理模型的真实世界强化学习

本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Jul, 2023

机器人深度强化学习中的模拟到真实转移：一项调查

本篇综述涵盖了深度强化学习中模拟转真实环境的基本背景，包括不同方向的方法和应用场景，重点讨论了域随机化、域自适应、模仿学习、元学习和知识蒸馏等方法及其存在的机遇和挑战。

Sep, 2020

基于模拟运动演示的机器人操纵强化学习

本文提出了一种新的机器人操作方法，该方法利用了物体本身的运动学习，通过使用物理模拟器中的对象运动策略生成辅助奖励，称为模拟运动演示奖励（SLDRs），该方法可以在不需要人类演示或昂贵成本的情况下，通过强化学习来掌握机器人操作技能，从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。

Oct, 2019

可变形物体操作的仿真增强学习

采用最先进的深度强化学习算法，通过领域随机化，在仿真环境中训练代理程序以解决可变形物体操作问题，并成功将其部署在实际工作中。

Jun, 2018

动态随机化的机器人控制的仿真到实际转移

本文介绍了一种简单的方法来解决在模拟训练中的现实差距问题。通过在训练过程中随机化模拟器的动力学，我们能够开发出适应非常不同的动力学的策略，并且使其在真实世界中推广而不需要在物理系统上进行训练。在机器人控制方面，我们的方法在物体推动任务上表现出了很好的性能。

Oct, 2017

深度 Q-Learning 机器人臂控制的 3D 模拟

该研究旨在使用深度强化学习算法，通过在模拟环境中训练机器人臂完成定位和抓取方块的任务，进而实现在真实场景下机器人控制的无缝转移，并设计了结构化奖励函数以提高训练效率。

Sep, 2016

利用对称性和启发式演示的离线策略强化学习在机器人操纵中的应用

本研究旨在定义和纳入物理机器人环境中的自然对称，利用行为克隆和强化学习相结合的方法，通过专家演示在对称环境下训练高效的模型无关强化学习策略，为普通操作任务的学习性能提供了新的可行方法。实验研究结果显示，相较于传统的策略外学习算法，该方法具有更好的学习性能和应用价值。

Apr, 2023

基于机械臂的仿真到实际深度强化学习用于拾取和放置

该研究提出了一种自监督视觉深度强化学习方法，使得机器人可以有效地在模拟环境和真实环境之间直接转移训练模型，并特别设计了一种高度敏感的行动策略用于处理拥挤和堆叠的物体，实验证明即使没有经过实际环境微调，该模型在真实吸附任务中的吸附成功率也能保持较高，还能在真实实验中吸附新物体并保持 90% 的成功率。

Sep, 2023