ICMLApr, 2023

离线强化学习中的对比能量预测在精确能量引导扩散采样中的应用

TL;DR本文提出了一个名为 CEP 的全新训练目标,并给出了精确公式来解决中间指导量未知的问题。在离线强化学习方面的应用中,D4RL 基准测试的结果表明,该方法优于现有的最先进算法。