DreamSync:将文本到图像生成与图像理解反馈对齐
通过直接偏好优化(DPO)在完全人工智能驱动的方法中利用视觉 - 语言模型(VLM)评估图像质量,AGFSync 将 T2I 扩散模型改进,应用于 T2I 的核心模型并在 TIFA 数据集上显示出显著改善。
Mar, 2024
T2I 个性化通过语义匹配替换目标值与参考值,将 T2I 个性化重新构想为语义匹配,避免破坏预训练模型的多样性能力,并引入了一种语义一致的遮罩策略以隔离个性化概念与目标提示之外的无关区域。
Feb, 2024
基于信息论对齐度量的自监督微调方法对模型对齐问题进行了研究,在文字到图像生成任务中获得了与最新技术相媲美或超过的结果,并且只需要一个预训练的去噪网络来估计互信息和一个轻量级微调策略。
May, 2024
我们提出了一个同步多视角扩散模型 SyncDreamer,该模型可以从单视图图像生成多视角一致的图像,解决了几何和颜色保持一致性的挑战。实验显示,SyncDreamer 生成的图像在不同视角上具有高度一致性,因此非常适合于新视点综合、文本到三维和图像到三维等各种三维生成任务。
Sep, 2023
通过人类反馈信号提高图像生成质量,结合文本到图像生成模型和基于强化学习的人类反馈,标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词,使用多模态变换器自动预测反馈,进一步改进图像生成方法。
Dec, 2023
该论文提出一种有效的方法,将文本到图像的生成与视觉问答相结合,利用 VQA 2.0 数据集来提高生成图像的图像质量和图像文本对齐,通过生成问题与答案对的额外训练样本,并采用标准的 VQA 模型,提供 T2I 模型的辅助学习信号,鼓励从 QA 对生成的图像看起来更加逼真,并最小化外部 VQA 损失。该方法可以成功提高 T2I 综合的效果,使 FID 从 27.84 降至 25.38,R-prec 从 83.82%提高至 84.79%。
Oct, 2020
本文介绍了一种 Fine-Tuning 方法,使用人类反馈对齐文本到图像的 Deep generative model,通过分析设计选择平衡对齐 - 准确性的权衡,最终通过奖励加权似然优化,使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明,利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。
Feb, 2023
DiffChat 是一个新颖的方法,用于将大型语言模型(LLMs)与以 prompt 为输入的文本到图像合成(TIS)模型(例如 Stable Diffusion)进行对齐,以实现交互式图像生成。它能够根据给定的原始提示 / 图像和用户指定的指令有效地进行适当的修改并生成目标提示,从而帮助生成高质量的目标图像。DiffChat 通过收集名为 InstructPE 的指令跟踪提示工程数据集进行监督训练,提出了一个包括三个核心评估标准(美学、用户喜好和内容完整性)反馈的强化学习框架来实现这一目标。在离线采样过程中,它采用一种动态修改技术来获得更相关的正样本和更难的负样本。为了进一步提高生成图像的质量,还将内容完整性引入到值估计函数中。通过比较自动评估和人工评估,我们的方法表现出优于基准模型和强竞争对手的性能,充分证明了其有效性。
Mar, 2024
介绍了一种信息丰富的扩散模型,名为 ParaDiffusion,用于段落到图像生成任务,通过利用大型语言模型来提升图像生成模型的语义理解能力,并在长文本语义对齐训练方面取得了优异结果。
Nov, 2023
扩散模型是具有令人印象深刻的文本到图像合成能力的生成模型,对于传统机器学习任务产生了一系列创新方法。然而,如何运用这些生成模型的感知知识来进行视觉任务仍然是一个未解之谜。本研究发现,自动生成的描述能够改善文本图像对齐,并显著提升模型的交叉注意力图,从而提高知觉性能。我们的方法在 ADE20K 数据集上改进了当前最先进的基于扩散的语义分割模型,并在 NYUv2 数据集上改进了当前最先进的深度估计模型。此外,我们的方法适用于跨领域环境;我们使用模型个性化和标题修改来将模型与目标域对齐,并改善了非对齐基准的性能。我们的目标检测模型,在 Pascal VOC 数据集上训练,实现了 Watercolor2K 数据集上的最佳结果。我们的分割方法,在 Cityscapes 数据集上训练,实现了 Dark Zurich-val 和 Nighttime Driving 数据集上的最佳结果。
Sep, 2023