Jun, 2023
优先轨迹回放:一种面向数据驱动型强化学习的回放内存
Prioritized Trajectory Replay: A Replay Memory for Data-driven
Reinforcement Learning
TL;DR本研究提出一种记忆技术 (Prioritized) Trajectory Replay (TR/PTR) 以优化 offline RL 的效率和性能。该方法将采样视角扩展到轨迹上,具有更全面的信息提取能力,并应用于现有的 offline RL 算法中。