Jul, 2024

ROER:正则化的最优体验回放

TL;DR在线强化学习中,经验回放是其成功的关键组成部分。本文提出了一种基于时间差异错误的经验重新加权策略,并通过使用KL散度作为正则化器将其优化为一种新形式的最优经验回放策略,得到了出色的实验结果。