Feb, 2023

优先离线目标交换经验回放

TL;DR本文提出了一种基于优先级的目标交换经验回放算法,并应用于离线强化学习中,用于解决先前数据量不足的问题,实验结果表明该算法在多项基准任务中有着显著的提高。