Jun, 2023

优先轨迹回放:一种面向数据驱动型强化学习的回放内存

TL;DR本研究提出一种记忆技术 (Prioritized) Trajectory Replay (TR/PTR) 以优化 offline RL 的效率和性能。该方法将采样视角扩展到轨迹上,具有更全面的信息提取能力,并应用于现有的 offline RL 算法中。