基于广义占据模型的可转移强化学习
本文提出了一种新的模型学习目标 TOM,利用重要性加权最大似然估计从回放缓冲中识别与策略相关的过去经验,使模型学习更专注于策略相关的经验,从而使策略更快地完成任务并获得更高的奖励。
May, 2023
我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态 - 动作空间的设置,并展示了简单的策略梯度法的样本复杂度。
Jun, 2023
本文研究如何通过模型驱动的增强学习方法促进任务转移,提出了基于动作条件的预测模型学习算法,用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。
Oct, 2019
在模型基强化学习中,精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述,并且显著降低动作序列预测的计算成本。在广泛的实验中,状态空间模型可以精确捕捉 Atari 游戏的动态,并且提供了高速计算,这使它们在强化学习的决策中具有实用价值。
Feb, 2018
我们研究了具有通用效用的可扩展多代理强化学习,通过利用网络结构的空间相关性衰减特性提出了一种具有阴影奖励和本地策略的可扩展分布式策略梯度算法,该算法不需要全观察每个代理的情况,可以最大化团队的平均局部效用函数。
Feb, 2023
本文介绍了一种基于几何地平线模型来提高政策表现的方法,该方法可以有效的评估非马尔科夫策略并通过广义策略提升来优化出新的马尔可夫策略,此方法证明了在深度强化学习中取得了不错的效果。同时,文章提供了对 GHM 训练方法的分析和收敛性研究。
Jun, 2022
本文介绍了一种多演示者离线强化学习算法,该算法能够自然地解决不同演示者产生不同数据分布的问题,并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法,结果表明,该方法能够提高领域泛化性能,可以改善策略学习过程的稳定性,并可以潜在地实现探索增强。
Nov, 2022
提出了一种基于高斯过程和最大方差缩减算法的模型基础方法,用于学习多输出名义转移动力学,克服了强化学习中的若干挑战,并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。
Sep, 2023
用各种策略和动力学集合的环境交互数据训练强化学习策略面临着基本的挑战,现有研究往往忽视由策略或动力学变化引起的分布差异,或依赖于带有任务先验知识的专门算法,从而导致子优的策略表现和高学习方差。本文提出一种统一的在线强化学习策略学习策略和动力学变化多样的策略:转移占用匹配。对此,我们通过考虑转移占用差异引入了一个代理策略学习目标,并通过双重重构将其转化为可处理的极小极大优化问题。我们的方法名为占用匹配策略优化(OMPO),它具有专门的演员 - 评论家结构,配备分布鉴别器和小型本地缓冲区。我们在 OpenAI Gym、Meta-World 和 Panda Robots 环境中进行了大量实验,包括在稳态和非稳态动力学下的策略变化以及领域自适应。结果表明,OMPO 在所有设置中优于不同类别的专业基准。我们还发现,当与领域随机化结合时,OMPO 表现出特别强的性能,突显了其在基于强化学习的机器人应用中的潜力。
May, 2024