训练先验预测文本到图像模型的性能

May, 2023

训练先验预测文本到图像模型的性能

Training Priors Predict Text-To-Image Model Performance

Charles Lovering, Ellie Pavlick

TL;DR本文研究了基于 SVO 三元组的文本到图像模型的训练机制，发现该类模型生成图像的能力建立在模型对于大量训练数据中频繁的三元组的记忆上，而对于训练数据中出现较少的关系组合以及非典型角色的概念，模型的性能较差。这表明了当前的文本到图像模型存在着较强的训练偏置，难以在生成图像的任务中使用传统意义下的抽象组合结构，其表现更像是已有训练数据之间的插值运算。

Abstract

text-to-image models can often generate some relations, i.e., "astronaut riding horse", but fail to generate other relations composed of the same basic parts, i.e., "horse riding astronaut". These failures are often taken as evidence that the models rely on training priors rather than

text-to-image models svo triads training data image generation compositional structure

发现论文，激发创造

基于扩散的感知的文本图像对齐

扩散模型是具有令人印象深刻的文本到图像合成能力的生成模型，对于传统机器学习任务产生了一系列创新方法。然而，如何运用这些生成模型的感知知识来进行视觉任务仍然是一个未解之谜。本研究发现，自动生成的描述能够改善文本图像对齐，并显著提升模型的交叉注意力图，从而提高知觉性能。我们的方法在 ADE20K 数据集上改进了当前最先进的基于扩散的语义分割模型，并在 NYUv2 数据集上改进了当前最先进的深度估计模型。此外，我们的方法适用于跨领域环境；我们使用模型个性化和标题修改来将模型与目标域对齐，并改善了非对齐基准的性能。我们的目标检测模型，在 Pascal VOC 数据集上训练，实现了 Watercolor2K 数据集上的最佳结果。我们的分割方法，在 Cityscapes 数据集上训练，实现了 Dark Zurich-val 和 Nighttime Driving 数据集上的最佳结果。

Sep, 2023

利用辅助文本进行深度识别未见视觉关系

提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型，通过共同的文本图像表示方法实现文本补充图像数据，结果表明图像中没有的文本信息可以显著提高模型性能

Oct, 2019

文本到图像生成中的对象 - 属性绑定：评估与控制

通过提出聚焦交叉注意力（FCA）和句子中的句法约束，本研究解决了当前扩散模型在图像中正确绑定文本提及的属性到正确对象上的困难，并在多个数据集上展示了图像与文本之间的对齐领域的重大改进。

Apr, 2024

提示硬或几乎不提示：用于文本到图像扩散模型的 Prompt 反转

通过使生成的图像内容与用户意图一致的提示，该方法利用扩散模型进行串行优化得到直观的语言提示，从而产生具有相似内容的多样化图像。

Dec, 2023

一种中间融合的 ViT 在扩散模型中实现了高效的文本 - 图像对齐

通过使用中间融合机制，我们在文本生成图像任务上获得了更高的 CLIP 得分，更低的 FID，与早期融合相比减少了 20% 的运算量，并且训练速度提高了 50%。

Mar, 2024

文本到图像扩散模型的语义引导调整

最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而，当前的模型在紧密遵循提示语义方面存在困难，通常会误代或忽视特定属性。为了解决这个问题，我们提出了一种简单的、无需训练的方法，在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念，并监控与每个概念相关的引导轨迹。我们的关键观察是，模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察，我们设计了一种技术，将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL

Dec, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

文本到图像扩散模型是优秀的素描照片匹配工具

这篇论文首次探索了用于零样本基于草图的图像检索的文本到图像扩散模型，发现其能够无缝地弥合草图与照片之间的差距，利用交叉模态能力和形状倾向性，通过我们的初步研究得到验证。为了有效利用预训练的扩散模型，我们引入了一种简单而有效的策略，着重于两个关键方面：选择最佳特征层和利用视觉和文本提示。通过识别最丰富信息且最适合特定检索要求（分类级别或细粒度）的层，然后使用视觉和文本提示来引导模型的特征提取过程，使其生成更具辨别力和相关上下文的交叉模态表示。在几个基准数据集上进行的大量实验证实了显著的性能提升。

Mar, 2024

激发对齐能力：多模态实体和关系抽取的力量

运用多模态提取与图像和文本对齐，利用创新的预训练目标来增强实体和关系的提取能力，实验结果显示相对先前的最佳方法有 3.41% 的 F1 改进，此方法对先前的多模态融合技术是正交的，并在先前的最佳方法的基础上提高了 5.47% 的 F1。

Oct, 2023

信息论文本到图像对齐

基于信息论对齐度量的自监督微调方法对模型对齐问题进行了研究，在文字到图像生成任务中获得了与最新技术相媲美或超过的结果，并且只需要一个预训练的去噪网络来估计互信息和一个轻量级微调策略。

May, 2024