Feb, 2025

作为行动的得分:通过连续时间强化学习微调扩散生成模型

TL;DR本研究解决了传统离散时间强化学习带来的误差问题,提出了一种使用连续时间强化学习微调扩散模型的新方法。通过将得分匹配视为控制或行动,构建了一个新的策略优化框架,实验结果表明该方法在微调大型文本到图像模型的下游任务中展现了显著优势。