Dec, 2024

基于目标的离线强化学习数据增强

TL;DR本文解决了离线强化学习中由于数据集质量不足而导致的政策学习问题。我们提出了一种新颖的基于目标的扩散方法GODA,通过生成具有更高回报的样本来增强数据集的质量。实验结果表明,GODA在多个离线强化学习算法中显著提升了数据质量和性能。