Dec, 2023

通过Q-Score匹配从奖励中学习扩散模型策略

TL;DR通过利用扩散模型的评分结构与Q函数的动作梯度之间的链接结构,我们提出了一种新的学习扩散模型策略的方法,称为Q-score匹配,并对该方法提供了理论上的证明。我们在模拟环境中进行实验,以证明我们提出的方法的有效性,并与流行的基准进行比较。