May, 2023

通过多次重复采样,离线强化学习算法在连续控制中具有高样本效率

TL;DR该论文提出了一种基于 SMR(样本多次重用)的强化学习方法,通过多次重复使用样本,可以在单次优化循环中更好地利用它们,从而显著提高了基本方法的样本效率。