Jun, 2023
HIPODE:使用策略解耦方法增强离线强化学习的高质量合成数据
HIPODE: Enhancing Offline Reinforcement Learning with High-Quality
Synthetic Data from a Policy-Decoupled Approach
TL;DR提出了一种名为HIPODE的数据增强方法,它可以为任何离线强化学习过程提供一种通用的插件方法,使用负采样技术选择可能具有高价值的候选状态附近的状态来生成高质量的合成数据,并在D4RL基准测试中优于最先进的无策略数据增强方法和大多数流行的基于模型的离线强化学习方法。