BriefGPT.xyz
Ask
alpha
关键词
policy switching
搜索结果 - 2
离线强化学习中的均衡策略切换:切换还是不切换?
采用最优输运的思想,我们对离线强化学习中的政策切换问题进行了系统研究,并设计了一种新颖的切换公式的 Net Actor-Critic 算法,数值实验证实了我们方法在多个 Gymnasium 基准测试上的效率。
PDF
23 days ago
具有 loglog (T) 切换成本的高样本效率强化学习
本文针对实际强化学习应用中新策略部署的高成本和策略更新次数必须较少的问题,提出了一种基于分阶段探索和自适应策略消除算法,实现了在低换乘成本下的回报 并且在已知的换乘成本中实现了指数级的改善。
PDF
2 years ago
Prev
Next