Dec, 2023

通过策略引导的轨迹扩散实现的世界模型

TL;DR我们提出了一种新的世界建模方法 PolyGRAD,它利用扩散模型和策略的动作分布梯度,通过一次传递生成整个在政策上的合成轨迹,该方法在竞争力预测错误率方面与最先进的自回归基线相当,并且使得能在 “虚拟中” 进行政策优化的性能表现良好。