Feb, 2022

具有loglog(T)切换成本的高样本效率强化学习

TL;DR本文针对实际强化学习应用中新策略部署的高成本和策略更新次数必须较少的问题,提出了一种基于分阶段探索和自适应策略消除算法,实现了在低换乘成本下的回报 并且在已知的换乘成本中实现了指数级的改善。