May, 2023

蒙特卡罗强化学习中的轨迹截断

TL;DR该研究提出了一种基于预算分配的数据收集策略,通过对轨迹进行截断来最小化策略的预期收益的经验估计的置信区间的宽度。研究还使用这种轨迹截断机制扩展了一种基于重要性采样的政策优化算法,并在数值比较中证明了该算法可以成功提高性能。