BriefGPT.xyz
大模型
Ask
alpha
关键词
adaptive policy learning
搜索结果 - 1
AAAI
离线在线强化学习的自适应策略学习
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数
→
PDF
a year ago
Prev
Next