Jul, 2024

基于偏好驱动的文本到图像生成的增强学习

TL;DR通过提出的λ-谐波奖励函数,结合 Bradley-Terry 偏爱模型,在主题驱动生成任务中实现模型选择和早停验证,并在 DreamBench 上实现了 0.833 的 CLIP-I 分数和 0.314 的 CLIP-T 分数。