通用策略网络的快速基于模型的策略搜索

Feb, 2022

通用策略网络的快速基于模型的策略搜索

Fast Model-based Policy Search for Universal Policy Networks

Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana, Svetha Venkatesh

TL;DR通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Abstract

Adapting an agent's behaviour to new environments has been one of the primary focus areas of physics based reinforcement learning. Although recent approaches such as universal policy networks partially address th

physics based reinforcement learning universal policy networks gaussian process-based prior bayesian optimisation-based policy search control environments

发现论文，激发创造

基于概率模型的策略搜索学习鲁棒控制器

通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Oct, 2021

贝叶斯策略复用

探讨了一种通过 Bayesian 优化和策略重用实现长期自主智能的方法，在短期任务执行中，利用一个预先训练的策略库中的策略来响应在线新任务实例，并通过探索和利用平衡策略库性能，实现了对交互式、短期连续任务领域的快速收敛。

May, 2015

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

策略预测网络：在连续动作空间中，基于模型学习的无模型行为策略

本文提出了一种具有离散动作空间的树形结构之前所未有的强化学习方法， Policy Prediction Network，该方法结合了模型自由与模型驱动强化学习，采用了经验证实的裁剪方法，实现了对连续动作空间的模型驱动学习并使其能够更好地适应 MuJoCo 环境等连续控制问题。

Sep, 2019

具备不确定因素感知的普适策略系统识别

本文介绍了一种名为 Uncertainty-aware policy search 的策略搜索方法，通过结合与给定环境相关的 UPN 策略，采用类似 DR 的方法，使用鲁棒性贝叶斯优化来制定强鲁棒性策略。在一系列嘈杂的连续控制环境中的实验证明了该方法的有效性。

Feb, 2022

贝叶斯策略优化模型不确定性

解决不确定性对于自主系统在现实世界中的可靠适应至关重要。我们提出了一种模型不确定性的连续 Bayes-Adaptive Markov Decision Process（BAMDP）算法，其中代理人维护潜在模型参数的后验分布，并相对于该信念分布最大化其预期长期回报。我们的算法建立在最新的策略优化算法之上，以学习通用策略，以最大化贝叶斯价值函数的探索 - 开发权衡。为了应对从离散化连续潜在参数空间带来的挑战，我们提出了一种新的策略网络体系结构，可将信念分布独立于可观察状态地编码。我们的方法显着优于没有明确考虑信念分布而解决模型不确定性的算法，并且与现有的部分可观测马尔可夫决策过程求解器竞争力相当。

Oct, 2018

PIPPS: 鲁棒的基于模型的策略搜索算法，能够应对混沌状态下的问题

探讨了深度学习和基于模型的强化学习中梯度爆炸问题的根源和解决方法，提出了基于概率推断和粒子策略搜索的 PIPPS 框架，以及计算路径导数深度并给予低方差估计器更大权重以改进 reparameterization 梯度的 total propogation 算法。

Feb, 2019

机器人和控制中的高斯过程数据有效学习

本文介绍了一种模型基于策略搜索的自动学习方法，使用概率非参数高斯过渡模型从数据中提取更多信息，以提高学习速度并降低模型误差的影响，已在真实机器人和控制任务中得到了应用。

Feb, 2015

继续做有效的事情：行为建模先验用于离线强化学习

本文提出了一种能够适用于机器人控制等实际问题，同时在批处理状态下能够有效学习的算法，该算法采用了优势加权行为模型 (ABM) 来对先前执行过的成功动作进行刻画，并对新的任务中可能成功的动作进行策略偏置，实验表明我们的算法在标准连续控制基准测试和多任务学习中都有着较好的效果。

Feb, 2020

分布式多智能体目标搜索和跟踪的高斯过程与强化学习

基于分布式高斯过程的多智能体强化学习技术能够利用深度学习的最新进展，在未知目标上规划和决策，以解决传统方法所依赖的启发式问题，并在硬件实验中展示了在无人机群组上的应用性能和可迁移性。

Aug, 2023