利用精细语义奖励提升文本到图像扩散模型

May, 2023

利用精细语义奖励提升文本到图像扩散模型

Boosting Text-to-Image Diffusion Models with Fine-Grained Semantic Rewards

Guian Fang, Zutao Jiang, Jianhua Han, Guangsong Lu, Hang Xu...

TL;DR本文提出FineRewards方法，通过引入两种细粒度语义奖励——caption reward 和 SAM reward，从两个语义视角提升text-to-image中文本和图像的匹配，实现模态对齐。在使用多个奖励函数指导训练的时候，FineRewards方法在MS-COCO基准测试上优于其他基准奖励函数，并且与当前图像奖励的统一进一步提高了模型性能。

Abstract

Recent advances in text-to-image diffusion models have achieved remarkable success in generating high-quality, realistic images from given text prompts. However, previous methods fail to perform accurate modality alignm

发现论文，激发创造

SUR-adapter：使用大型语言模型增强文本到图像预训练扩散模型

该研究探讨了如何改进文本生成图像的模型的问题，提出了一种称为Semantic Understanding and Reasoning adapter (SUR-adapter)的参数高效微调方法，以提高短文本输入的语义理解和常识推理能力，进而用提高的文本语义表征生成高质量图像。

May, 2023

将文本到图像扩散模型与奖励反向传播对齐

AlignProp是一种用于将扩散模型与下游奖励函数对齐的方法，通过反向传播奖励梯度穿越去噪过程，它在较少的训练步骤中实现了更高的奖励，且概念上更简单，因此对于优化不同iable reward functions感兴趣的扩散模型来说是一个直观的选择。

Oct, 2023

一图胜千言：原则性重描述提升图像生成

通过重新标注语料库并以此为基础训练文本到图像模型，可以显著提高模型的图像质量和语义对齐，并减少训练与推理之间的差异，增加样例效率，使模型更好地理解标题和图像之间的关系。

Oct, 2023

使用文本编码强化学习增强扩散模型

通过强化学习对文本编码器进行微调，可以提高文本与图像之间的对齐效果，从而提升图像质量。

Nov, 2023

文本到图像扩散模型的语义引导调整

最近的文本到图像(T2I)扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而，当前的模型在紧密遵循提示语义方面存在困难，通常会误代或忽视特定属性。为了解决这个问题，我们提出了一种简单的、无需训练的方法，在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念，并监控与每个概念相关的引导轨迹。我们的关键观察是，模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察，我们设计了一种技术，将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL

Dec, 2023

文本-图像扩散与偏好的密集奖励观点对齐

通过引入时间折扣机制以适应T2I生成层次结构，本文提出了一种可行的对齐目标，强调T2I反向链中的初始步骤，实验证明该方法在单个和多个提示生成方面与相关基线方法具有竞争力。

Feb, 2024

细调文本-图像模型的自信度感知奖励优化

使用人类反馈数据训练的奖励函数来微调文本到图像模型已被证明可以将模型行为与人类意图对齐。然而，过度优化这些奖励模型可能会损害微调模型的性能，这被称为奖励过度优化现象。为了深入研究这个问题，我们引入了Text-Image Alignment Assessment (TIA2)基准，该基准由各种文本提示、图像和人类注释组成。我们在这个基准上评估了几个最先进的奖励模型，发现它们与人类评估频繁不一致。我们经验证明，当使用一个不良对齐的奖励模型作为微调目标时，过度优化现象尤为严重。为了解决这个问题，我们提出了TextNorm，一种简单的方法，根据一组语义对比的文本提示来增强对齐。我们证明，在微调中整合具有置信度校准的奖励可以有效减少过度优化，相对于基线奖励模型，在文本到图像对齐的人类评估中获得了两倍的胜利。

Apr, 2024

CoMat: 文本到图像扩散模型与图像到文本概念匹配的对齐

提出了CoMat，一种将图像到文本概念匹配机制与端到端扩散模型微调策略相结合的方法，通过利用图像字幕模型衡量图像到文本的对齐性并指导扩散模型重新访问忽略的标记，解决了文本提示与图像之间的对齐不足问题。在两个文本到图像对齐基准测试中，CoMat-SDXL相对于基准模型SDXL表现出色，达到了最先进的性能。

Apr, 2024

用于改进文本到图像模型的类条件自奖励机制

通过使用自奖励机制改进自动生成的图像，可以有效提高文本到图像生成模型的性能和图像质量。

May, 2024

阐明文本到图像扩散模型中的最佳奖励-多样性权衡

本研究针对文本到图像扩散模型在训练过程中产生的不安全和不符合人类偏好的图像问题，提出了一个新的解决方案。通过引入受启发的Annealed Importance Guidance (AIG) 正则化技术，我们在优化奖励的同时保留了生成图像的多样性，实验结果显示AIG可以有效提高图像的多样性和质量，从而实现奖励与多样性的最佳权衡。

Sep, 2024