关键词regularized policy optimization
搜索结果 - 2
- ICLR基于模型的离线元强化学习与正则化
该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中 - Muesli: 综合政策优化的改进
该论文提出一种新的政策更新方式 Muesli,它将正则化策略优化与模型学习结合作为辅助损失函数。该方法在 Atari 上取得了与 MuZero 相媲美的性能,而没有使用深度搜索。同时其计算速度与基线模型相当,并在连续控制和 9x9 围棋等领