Feb, 2024

连续时间扩散模型的熵正则控制微调

TL;DR通过以预训练扩散模型为基础,直接优化熵增强奖励函数的神经 SDE,我们提出了一种解决奖励陷入崩溃问题的框架,理论和实证证据表明该框架能够高效生成具有高真实奖励的多样样本,并减少对不完美奖励模型的过度优化。