Jun, 2024

Diffusion-RPO:通过相对偏好优化对齐扩散模型

TL;DRDiffusion-RPO 是一种新的方法,旨在更有效地将基于扩散的 T2I 模型与人类偏好对齐。我们引入了一种新的评估指标,即风格对齐,旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重复性和有限可解释性的挑战。研究结果表明,Diffusion-RPO 在调整 Stable Diffusion 版本 1.5 和 XL-1.0 时,优于监督微调和 Diffusion-DPO 等已有方法,在自动评估人类偏好和风格对齐方面取得了卓越的结果。