Apr, 2023

保守目标模型是一种特殊的对比离差能量模型

TL;DR本文研究了保守的客观模型(COM)在离线基于模型的优化(MBO)中的应用;提出了用Langevin MCMC采样器代替渐近梯度采样器的方法,使得采样概率正比于所预测的奖励;进一步表明,通过将无条件概率和条件概率分别建模,可以获得更好的采样效果。