Jun, 2023

离线优先经验回放

TL;DR提出了一种基于优先重现经验的离线强化学习算法,通过一类设计良好的优先级函数来更频繁地访问高回报的转移,从而缓解了分布移位问题并提高了算法性能。