Jun, 2023

离线强化学习中的样本内策略迭代

TL;DR本文提出了一种新的算法,采用样本内策略迭代技术,通过在最小化数据收集策略的偏差的同时优化控制策略,可以显著提高离线强化学习中行为规则方法的性能,从而实现对以前收集的数据的有效控制。最后,基于 D4RL 基准测试的实验结果表明,该算法在大多数任务上优于以前的最先进方法。