Jun, 2021

无需离线策略评估的离线强化学习

TL;DR本文探讨了离线强化学习领域中的一个策略改进方法,使用 on-policy Q 估计的行为策略,通过一步有限制 / 正则化的策略改进,能在 D4RL 基准测试中表现优于迭代算法。我们认为,迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。