Oct, 2023

通过扩散学习实现目标达成

TL;DRDiffusion models 可以将高维空间中的随机噪声通过迭代去噪映射到目标流形,来解决强化学习中以目标条件为导向的问题。本文提出了一种名为 Merlin 的方法,利用类似扩散过程的思想,在高维空间中构建从潜在目标状态扩散而远离的轨迹,并通过学习类似分值函数的目标条件策略,能够从任意初始状态到达预定义或新颖的目标。本文在离线目标达成任务上进行理论验证和实证实验,结果表明这种针对序列决策问题的扩散思路是一种简单、可扩展且有效的方向。