ICMLJun, 2024

ATraDiff:使用虚拟轨迹加速在线强化学习

TL;DR使用离线数据训练生成扩散模型以解决在线强化学习中的稀疏奖励问题。