SafeAPT：使用在模拟器中学得的多样策略的安全模拟 - 真实机器人学习

Jan, 2022

SafeAPT：使用在模拟器中学得的多样策略的安全模拟 - 真实机器人学习

SafeAPT: Safe Simulation-to-Real Robot Learning using Diverse Policies Learned in Simulation

Rituraj Kaushik, Karol Arndt, Ville Kyrki

TL;DR介绍了一种名为 SafeAPT 的学习算法，它使用仿真实验学习的策略并将其安全地迁移到实际机器人中，通过实际交互而不会危害自身或周围环境。该算法通过迭代学习概率奖励模型和安全模型，并使用仿真经验作为先验，在满足安全约束的情况下完成该策略。经过实际和仿真机器人的对比实验，显示 SafeAPT 能够在短时间内找到高性能策略并在交互期间最小化安全违规。

Abstract

The framework of simulation-to-real learning, i.e, learning policies in simulation and transferring those policies to the real world is one of the most promising approaches towards data-efficient learning in robotics

simulation-to-real learning robotics safeapt policy adaptation safety model

发现论文，激发创造

零样本 Sim2Real 环境自适应

提出了使用 Reverse Action Transformation（RAT）策略的方法来解决模拟到现实世界之间的转换问题，并且和其他基线模型相比，在连续控制任务中可实现零样本适应。

Feb, 2023

安全的深度策略适应

SafeDPA 是一种处理策略适应性和安全强化学习问题的新型强化学习与控制框架，通过在仿真环境中联合学习自适应策略和动力模型，并通过少量现实数据进行动力模型微调，引入基于控制屏障函数的安全过滤器，以确保在现实世界部署中的安全性。SafeDPA 在安全性和任务性能方面表现出较大的优越性，实验证明在未见扰动的真实世界实验中，相比基准方法，安全率增加了 300%。

Oct, 2023

概率安全策略转移

本文提出一个安全的学习方法，即在保证机器人不会过度受损的前提下，通过优化问题的方法来达到最大化预期回报的目的，并采用一种新的方法来判断修改扭矩限制或更新策略参数时机器人可能受到的安全影响，以确保机器人在学习过程中该约束得到维持，实验证明了该方法的有效性。

May, 2017

仿真机器人臂的安全强化学习

通过在 Panda 机械臂创建自定义环境，扩展安全强化学习算法的适用性，并通过与基准版本的比较表明，在满足安全约束条件的同时，受限版本能够学习到同样好的策略，但需要更长的训练时间。

Nov, 2023

PLATO: 使用自适应轨迹优化的策略学习

PLATO 算法通过模型预测控制生成监督信号训练控制策略，以逐步匹配学到的策略，并保证其安全性，同时维持模型预测控制的成本作为约束，使最终学到的策略在长时间任务中表现良好。实验结果表明，PLATO 算法相较于先前方法，学习速度更快，在训练过程中遇到灾难性失败（坠机）的次数大幅减少，更可能收敛到较好的策略。

Mar, 2016

相互对齐迁移学习

通过强化学习在模拟环境中训练机器人并结合补充奖励策略，与真实机器人进行进一步的微调来优化探索策略，实验结果表明，这种相互对齐的方法可以在真实和模拟环境中实现更好的性能。

Jul, 2017

一种基于优势的强化学习策略迁移算法及其可迁移性度量

本文提出了一种基于收益的策略转移算法 APT-RL，用于在固定领域环境中的强化学习，通过使用 “优势” 作为正则项，避免了启发式选择算法设计，并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架，实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法，并且比从零开始学习更加高效。

Nov, 2023

ADAPT: 随机动态系统的零 - shot 自适应策略转移

本文介绍了一种名为 Adaptive Policy Transfer for Stochastic Dynamics（ADAPT）的算法，它可以实现零 - shot 安全、鲁棒、动态可行的 RL 策略转移至具有动态误差的新领域。ADAPT 共振离线政策学习的优点，通过在线管基于模型预测控制来减弱源和目标动态之间的有界模型不匹配。我们在 2 个连续的非完整模拟动态系统上评估了 ADAPT，在 4 种不同的扰动模型中发现，ADAPT 的平均奖励累积比直接策略传递高 50%-300%。

Jul, 2017

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

学习生成增强图像用于模拟到真实场景的策略迁移

本文探讨在模拟环境中学习机器人操作策略的方法，通过使用深度图像数据的随机扩增策略，实现了在非真实场景下学习并获得了验证。

Mar, 2019