将文本到图像扩散模型与奖励反向传播对齐
通过引入时间折扣机制以适应 T2I 生成层次结构,本文提出了一种可行的对齐目标,强调 T2I 反向链中的初始步骤,实验证明该方法在单个和多个提示生成方面与相关基线方法具有竞争力。
Feb, 2024
扩散模型是具有令人印象深刻的文本到图像合成能力的生成模型,对于传统机器学习任务产生了一系列创新方法。然而,如何运用这些生成模型的感知知识来进行视觉任务仍然是一个未解之谜。本研究发现,自动生成的描述能够改善文本图像对齐,并显著提升模型的交叉注意力图,从而提高知觉性能。我们的方法在 ADE20K 数据集上改进了当前最先进的基于扩散的语义分割模型,并在 NYUv2 数据集上改进了当前最先进的深度估计模型。此外,我们的方法适用于跨领域环境;我们使用模型个性化和标题修改来将模型与目标域对齐,并改善了非对齐基准的性能。我们的目标检测模型,在 Pascal VOC 数据集上训练,实现了 Watercolor2K 数据集上的最佳结果。我们的分割方法,在 Cityscapes 数据集上训练,实现了 Dark Zurich-val 和 Nighttime Driving 数据集上的最佳结果。
Sep, 2023
本文介绍了一种有效可扩展的算法,利用强化学习(RL)在各种奖励函数上改进扩散模型,包括人类偏好、组合性和公平性,从而有效地解决了扩散模型与人类偏好不一致的问题,同时提高了生成样本的组合性和多样性。
Jan, 2024
本文提出了一种名为 “分解和重新对齐” 的无需训练的方法,通过分离存在于图像和文本之间的对应关系来改善现有模型的可控性,从而实现对部分对齐条件的控制。我们采用交叉注意机制来避免在重新组合分别计算的分数时产生新的冲突,在定性和定量结果上都证明了我们方法的有效性。
Jun, 2023
本文介绍了一种 Fine-Tuning 方法,使用人类反馈对齐文本到图像的 Deep generative model,通过分析设计选择平衡对齐 - 准确性的权衡,最终通过奖励加权似然优化,使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明,利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。
Feb, 2023
Diffusion-KTO 是一种用于对齐文本到图像扩散模型的新方法,通过将对齐目标定义为期望人类效用的最大化。它不需要收集昂贵的成对偏好数据,也不需要训练复杂的奖励模型,而是使用简单的每张图像的二进制反馈信号(例如赞或踩)来实现目标。Diffusion-KTO 经过微调后,在人类判断和自动评估指标(如 PickScore 和 ImageReward)方面,文本到图像扩散模型表现出优越的性能,比现有技术(包括监督微调和 Diffusion-DPO)更胜一筹。总的来说,Diffusion-KTO 发掘了利用易得的每张图像的二进制信号的潜力,并扩展了将文本到图像扩散模型与人类偏好对齐的适用性。
Apr, 2024
通过在扩散模型的内嵌空间中优化感知目标,我们提出了一种方法,使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量,同时降低了计算成本。
Jun, 2024
通过分解式对齐评估和改进文本到图像的对齐效果,并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明,这种对齐度指标与人类评分高度相关,并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明,该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。
Jul, 2023