Jun, 2024

使用强化学习为扩散模型添加条件控制

TL;DR基于强化学习的 $ extbf {CTRL}$($ extbf {C}$onditioning pre-$ extbf {T}$rained diffusion models with $ extbf {R}$einforcement $ extbf {L}$earning)方法通过离线数据集,利用强化学习方法在预训练模型上添加额外控制,从而能在推理过程中对条件分布进行采样。与现有方法相比,我们的基于强化学习的方法提供了更高的样本效率,并且利用了输入和额外控制之间的条件独立性,从而极大地简化了离线数据集的构建。此外,与分类器指导方法不同,我们不需要从中间状态到额外控制训练分类器。