Jun, 2023

使用梯度对抗不确定性:通过扩散分数匹配实现脱机强化学习

TL;DR该研究探究了使用离线RL和IL进行策略搜索算法的离线优化范式,并要求更加小心地考虑这些方法是如何与不确定性评估相互作用的。同时,该研究提出了一种名为Score-Guided Planning(SGP)的规划算法,它利用分数匹配来实现高维问题中的一阶规划。