Feb, 2024
连续时间扩散模型的熵正则控制微调
Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized Control
Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali, Gabriele Scalia...
TL;DR通过以预训练扩散模型为基础,直接优化熵增强奖励函数的神经 SDE,我们提出了一种解决奖励陷入崩溃问题的框架,理论和实证证据表明该框架能够高效生成具有高真实奖励的多样样本,并减少对不完美奖励模型的过度优化。