基于元模型的元策略优化
该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中取得了优异的表现。
Feb, 2022
本文提出了一种新的算法框架来设计和分析具有理论保证的基于模型的强化学习算法,该框架将不确定性原则扩展到非线性动态模型,其中模型 SLBO 在连续控制基准任务上实现了最先进的性能。
Jul, 2018
通过使用深度神经网络同时学习模型和策略,我们分析了基于模型的增强学习方法的行为,并展示出学习到的策略倾向于利用模型学习不足的区域,导致训练不稳定。为了解决这个问题,我们提出使用模型集合来维护模型的不确定性并规范学习过程,并进一步展示,与 “Backpropagation through time” 相比,使用 “likelihood ratio” 导数可以获得更加稳定的学习。通过我们的方法 ME-TRPO,在具有挑战性的连续控制基准任务中,显著减少了比基于模型的深度 RL 方法所需的样本数量。
Feb, 2018
本文通过元学习 Mirror Learning 结构并发现一个闭合形式的强化学习算法 DPO, 通过在 Brax 环境下的实验验证,证明 LPO 和 DPO 算法在性能上处于最先进的位置,并具有在未知环境中的转移能力。
Oct, 2022
基于现有先进模型和元学习方法,本文提出了一种新的基于模型的元强化学习方法,通过实验证明了我们方法在常见元强化学习基准领域上能够获得更高的回报,并且具有更好的样本利用效率(高达 15 倍),同时需要很少的超参数调整。此外,我们还在更具挑战性的、高维领域验证了我们的方法,为实现真实世界中的泛化智能体迈出了一步。
Mar, 2024
本文提出了一种基于模型的离线策略优化算法 (MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
May, 2020
该论文提出了一种个性化元强化学习算法 (pMeta-RL),旨在解决元强化学习中的梯度冲突问题,该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略,同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明,优于其他以往的 Meta-RL 算法。
Sep, 2022
本文提出了一种基于联邦学习的强化学习策略的元学习算法,在不需要大量策略经验数据的情况下,能够加速学习新任务,该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性,并且可应用于视觉观测领域。
Apr, 2019
本文研究模型在强化学习算法中的使用,旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法,并探讨了模型在策略优化中的作用。实践中,作者发现模型生成的在线策略数据总是不如真实的离线数据。然而,通过将模型泛化能力的经验估计纳入到分析中,可以证明模型的使用是合理的。最后,作者展示了一种简单的方法,使用从真实数据中分支的短模型生成滚动数据,具有比其他基于模型的方法更好的样本效率,可以匹配最佳无模型算法的渐近性能,并能处理其它基于模型的算法不能处理的问题。
Jun, 2019