Jun, 2024

步骤感知的偏好优化:在每个步骤中将偏好与去噪性能对齐

TL;DR我们提出了一种 Step-aware Preference Optimization (SPO) 的方法,通过独立评估和调整每个步骤的去噪性能,在对生成图像进行偏好调整时改进了 Diffusion-DPO 方法的训练效率和图像质量。