Apr, 2024

政策引导扩散

TL;DR我们提出了一种使用扩散模型生成基于行为分布的整个轨迹,并通过目标策略引导将合成经验转移到更贴近目标策略的方法,以此代替真实数据进行离线强化学习,并在各种标准离线强化学习算法和环境中取得显著的性能改善。