May, 2024

课程定向优化策略:扩散和一致性模型

TL;DR该论文介绍了一种基于课程学习的新颖增强版 Direct Preference Optimization(DPO)方法,用于文本到图像生成,在三个基准测试中胜过了其他方法,包括文本对齐、美学和人类首选项等方面。