BriefGPT.xyz
大模型
Ask
alpha
关键词
input traces
搜索结果 - 1
局部约束策略优化用于非平稳输入驱动环境的在线强化学习
该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略,利用本地约束策略优化(LCPO)来优化当前经验,基于旧经验进行策略衔接,有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证,结果表明,它在在线设置下优于最先进
→
PDF
a year ago
Prev
Next