Feb, 2023

局部约束策略优化用于非平稳输入驱动环境的在线强化学习

TL;DR该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略,利用本地约束策略优化(LCPO)来优化当前经验,基于旧经验进行策略衔接,有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证,结果表明,它在在线设置下优于最先进的策略和离线策略学习方法,并且达到了预先训练整个输入跟踪的离线代理的水平。