具备不确定因素感知的普适策略系统识别

Feb, 2022

具备不确定因素感知的普适策略系统识别

Uncertainty Aware System Identification with Universal Policies

Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana, Svetha Venkatesh

TL;DR本文介绍了一种名为 Uncertainty-aware policy search 的策略搜索方法，通过结合与给定环境相关的 UPN 策略，采用类似 DR 的方法，使用鲁棒性贝叶斯优化来制定强鲁棒性策略。在一系列嘈杂的连续控制环境中的实验证明了该方法的有效性。

Abstract

sim2real transfer is primarily concerned with transferring policies trained in simulation to potentially noisy real world environments. A common problem associated with sim2real transfer is estimating the real-wo

sim2real transfer domain randomisation uncertainty-aware policy search universal policy network bayesian optimisation

发现论文，激发创造

通用策略网络的快速基于模型的策略搜索

通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Feb, 2022

面向未知预测：基于在线系统认知学习通用策略

通过利用物理模拟器生成的大量训练样本，我们提出了一种新的学习控制策略的方法，该方法可以成功地在未知的动态模型下运行。我们的系统由通用策略（UP）和在线系统识别（OSI）函数两部分组成，通过 UP 的训练和在系统状态下提供的来自 OSI 的 mu 值进行控制，我们的 UP-OSI 是一个可以在各种动态模型下使用的鲁棒控制策略。

Feb, 2017

双足行走的模拟到现实转移

本文提出了一种新的方法将动态机器人控制策略（例如双足步态）从仿真传输到实际机器人硬件中，并使用预 - 系统辨识和后 - 系统辨识的两个阶段进行系统辩识，其中采用了基于贝叶斯优化的投影通用策略作为主体来控制机器人。

Mar, 2019

零样本 Sim2Real 环境自适应

提出了使用 Reverse Action Transformation（RAT）策略的方法来解决模拟到现实世界之间的转换问题，并且和其他基线模型相比，在连续控制任务中可实现零样本适应。

Feb, 2023

基于不确定性感知的基础动作转换：用于交通信号控制的模拟到实际转换

本文提出了一种名为 UGAT 的仿真到真实世界转移方法，通过动态转换模拟中的不确定行动来减小转移动态的领域差异，从而将在仿真环境中训练的学习策略转移到真实环境中，显著提高了转移强化学习策略在真实世界中的性能。

Jul, 2023

上下文感知策略复用

本文提出了一种名为 CAPS 的上下文感知策略重用方法，它学习何时和哪个源策略最适合重用以及何时终止其重用，从而提高了转移效率并保证了收敛和最优性。实验结果表明，CAPS 在网格导航领域和 Pygame 学习环境中明显优于其他最先进的策略重用方法。

Jun, 2018

ADAPT: 随机动态系统的零 - shot 自适应策略转移

本文介绍了一种名为 Adaptive Policy Transfer for Stochastic Dynamics（ADAPT）的算法，它可以实现零 - shot 安全、鲁棒、动态可行的 RL 策略转移至具有动态误差的新领域。ADAPT 共振离线政策学习的优点，通过在线管基于模型预测控制来减弱源和目标动态之间的有界模型不匹配。我们在 2 个连续的非完整模拟动态系统上评估了 ADAPT，在 4 种不同的扰动模型中发现，ADAPT 的平均奖励累积比直接策略传递高 50%-300%。

Jul, 2017

策略优化的政策转移

本研究提出了一种基于域随机化的控制策略迁移方法，通过同时学习多种不同行为的控制策略来应对目标环境与训练环境之间的差异，而无需对动态参数进行识别，实验表明该方法可以成功地解决模型误差较大的情况。

Oct, 2018

不确定性感知的离线学习

本研究通过显式建模不确定性，并提出一种不确定性感知的倾向得分估计器（UIPS），可改进离线策略优化，实验结果表明其比现有方法更具有样本效益。

Mar, 2023

无监督环境设计中的随机不确定性建模

SAMLR 是一种适应性课程学习方法，可以在避免课程诱导的协变量漂移的情况下优化环境序列，保证在真实环境下最大化效用函数，实现强化学习中的最小后悔策略。

Jul, 2022