基于模型的策略优化与无监督模型适应
本文旨在提高多智能体控制的数据效率,采用基于模型的学习方式,通过多个代理通过本地通信进行合作完成任务,实现分散的基于模型的策略优化框架,提出了扩展的价值函数,理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似,并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。
Jul, 2022
在模仿学习中,我们使用基于样本的方法开发了一种基于策略梯度的算法,即通过学习专家的样本轨迹,找到至少与专家策略一样好的参数化随机策略;该算法可以应用于高维度环境,并保证收敛到局部最小值。
May, 2016
本文研究模型在强化学习算法中的使用,旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法,并探讨了模型在策略优化中的作用。实践中,作者发现模型生成的在线策略数据总是不如真实的离线数据。然而,通过将模型泛化能力的经验估计纳入到分析中,可以证明模型的使用是合理的。最后,作者展示了一种简单的方法,使用从真实数据中分支的短模型生成滚动数据,具有比其他基于模型的方法更好的样本效率,可以匹配最佳无模型算法的渐近性能,并能处理其它基于模型的算法不能处理的问题。
Jun, 2019
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
May, 2024
用各种策略和动力学集合的环境交互数据训练强化学习策略面临着基本的挑战,现有研究往往忽视由策略或动力学变化引起的分布差异,或依赖于带有任务先验知识的专门算法,从而导致子优的策略表现和高学习方差。本文提出一种统一的在线强化学习策略学习策略和动力学变化多样的策略:转移占用匹配。对此,我们通过考虑转移占用差异引入了一个代理策略学习目标,并通过双重重构将其转化为可处理的极小极大优化问题。我们的方法名为占用匹配策略优化(OMPO),它具有专门的演员 - 评论家结构,配备分布鉴别器和小型本地缓冲区。我们在 OpenAI Gym、Meta-World 和 Panda Robots 环境中进行了大量实验,包括在稳态和非稳态动力学下的策略变化以及领域自适应。结果表明,OMPO 在所有设置中优于不同类别的专业基准。我们还发现,当与领域随机化结合时,OMPO 表现出特别强的性能,突显了其在基于强化学习的机器人应用中的潜力。
May, 2024
本文提出了一种新的强化学习算法 APO,该算法利用 max-min 博弈理论减轻数据扩充带来的过拟合问题,提高了学习策略的效率,并对几个 DeepMind 控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明,我们的方法 APO 在性能上始终优于最先进的基于策略的 PPO 代理,并且与最先进的数据增强,RAD 和基于正式的 DRAC 等方法进行了比较。
Apr, 2023
应用鲁棒 MDPs 框架及引入一种新型的学习过渡模型,该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性,并在实验中展示了该模型在失真 MDPs 中提高学习策略性能的显著改进。
Jun, 2024
论文研究了缺失真实环境信息的强化学习问题,将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中,提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法,并通过函数逼近扩展到大规模 MDPs,证明了其收敛性,并给出了保证局部最小的随机梯度下降算法。
Jun, 2017