Mar, 2024

奖励引导的潜变量一致性蒸馏

TL;DR通过奖励引导,补偿样本质量损失,提高 Latent Consistency Distillation (LCD) 方法的图像生成质量,同时使用潜变量代理奖励模型 (latent proxy RM, LRM) 作为中介,连接 Latent Consistency Model (LCM) 和奖励模型 (RM) 来避免高频噪声,从而实现更高质量的大规模图像生成。