Nov, 2023

利用人类反馈对扩散模型进行微调,无需任何奖励模型

TL;DR使用直接偏好优化方法直接优化扩散模型,在不需要训练奖励模型的情况下,通过相对目标的比例作为人类偏好的代理实现了可比较的结果,减少了图像畸变率并生成了更安全的图像。