SELMA：基于自动生成数据的学习和合并特定技能的文本到图像专家

Mar, 2024

SELMA：基于自动生成数据的学习和合并特定技能的文本到图像专家

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data

Jialu Li, Jaemin Cho, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal

TL;DR最近的文本到图像生成模型在从文本描述中创建图像方面展示了令人印象深刻的能力。然而，这些文本到图像生成模型经常无法生成与文本输入的细节完全匹配的图像，例如错误的空间关系或缺失的对象。本文引入 SELMA：基于自动生成数据的技能特定专家学习与融合的新范式，通过在自动生成的多技能图像 - 文本数据集上对模型进行微调，改善 T2I 模型的忠实度。SELMA 首先利用 LLM 的上下文学习能力生成多个文本提示数据集，以教授不同的技能，然后根据这些提示使用 T2I 模型生成图像。接下来，SELMA 通过学习多个单技能的 LoRA（低秩自适应）专家并进行专家融合来适应新技能的 T2I 模型。我们的独立专家微调为不同的技能专门定制了多个模型，并且专家融合有助于构建一个联合的多技能 T2I 模型，能够根据不同的文本提示生成忠实的图像，并在消除不同数据集之间的知识冲突。我们在多个基准数据集（TIFA 和 DSG 分别提高了 + 2.1% 和 + 6.9%），人类偏好指标（PickScore、ImageReward 和 HPS），以及人类评价方面的实验证明，SELMA 显著提高了最先进的 T2I 扩散模型的语义对齐性和文本的忠实度。此外，通过 SELMA 自动收集的图像 - 文本对进行微调与使用真实数据进行微调的性能相当。最后，我们展示了通过弱 T2I 模型中的图像进行微调可以提高强 T2I 模型的生成质量，这表明 T2I 模型具有有希望的从弱到强的泛化能力。

Abstract

Recent text-to-image (T2I) generation models have demonstrated impressive capabilities in creating images from text descriptions. However, these T2I generation models often fall short of generating images that precisely match the details of the text inputs, such as incorrect spatial relationship or missing objects. In this paper, we introduce →

text-to-image generation t2i models selma expert learning multi-skill t2i model

发现论文，激发创造

EMMA: 您的文本到图像扩散模型可秘密接受多模态提示

EMMA 是一个创新的图像生成模型，通过多模态特征连接器设计将文本与其他模态信息有效地整合，以实现个性化和情境感知图像和视频的生成。EMMA 模块的学习和组装使其成为一种灵活且有效的解决方案，用于高保真度和详细程度较高的多模态条件图像生成任务。

Jun, 2024

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

文本到图像扩散模型的语义引导调整

最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而，当前的模型在紧密遵循提示语义方面存在困难，通常会误代或忽视特定属性。为了解决这个问题，我们提出了一种简单的、无需训练的方法，在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念，并监控与每个概念相关的引导轨迹。我们的关键观察是，模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察，我们设计了一种技术，将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL

Dec, 2023

SITTA: 图像描述任务中的语义图像文本对齐

为了使生成合适的图片字幕，需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射，从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射，我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下，我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。

Jul, 2023

实体级文本引导图像操作

本文提出了基于文本指导的实体级别真实世界图像操纵方法 SeMani，通过语义对齐和图像操纵两个阶段，使用离散自回归生成和扩散模型连续去噪生成开发了两个版本的生成过程，对 CUB，Oxford 和 COCO 数据集进行了实验验证。

Feb, 2023

目标图像数据增强提高基本技能字幕鲁棒性

通过填补世界相关性结构的缺失，利用文本到图像生成模型改进人类模型在性别识别等方面的能力，显示了一种目标图像编辑数据增强方法在性别、颜色和计数能力方面提高图像字幕度量的性能，并分析了图像字幕模型在视觉编码和文本解码方面的不同行为表现。

Sep, 2023

文本到图像合成的语义感知数据增强

通过语义感知数据增强 (SADA) 框架来提升文本到图像合成 (T2Isyn) 模型中的文本 - 图像一致性并改善图像质量。该框架通过隐式文本语义保持增强 (ITA) 在语义空间中扩充文本，并结合特定设计的图像语义正则化损失 (Lr) 作为生成图像的语义保持，以解决语义不匹配和坍塌问题。大量实验证实了 SADA 在各种模型中提升了文本 - 图像一致性和图像质量，特别是在 Stable Diffusion 模型调整过程中的改进效果。

Dec, 2023

基于扩散的感知的文本图像对齐

扩散模型是具有令人印象深刻的文本到图像合成能力的生成模型，对于传统机器学习任务产生了一系列创新方法。然而，如何运用这些生成模型的感知知识来进行视觉任务仍然是一个未解之谜。本研究发现，自动生成的描述能够改善文本图像对齐，并显著提升模型的交叉注意力图，从而提高知觉性能。我们的方法在 ADE20K 数据集上改进了当前最先进的基于扩散的语义分割模型，并在 NYUv2 数据集上改进了当前最先进的深度估计模型。此外，我们的方法适用于跨领域环境；我们使用模型个性化和标题修改来将模型与目标域对齐，并改善了非对齐基准的性能。我们的目标检测模型，在 Pascal VOC 数据集上训练，实现了 Watercolor2K 数据集上的最佳结果。我们的分割方法，在 Cityscapes 数据集上训练，实现了 Dark Zurich-val 和 Nighttime Driving 数据集上的最佳结果。

Sep, 2023

DialogGen: 多模态交互式对话系统用于多轮文本到图像生成

通过将多模态大型语言模型与文本到图像生成模型相结合，提出了一种用于多轮文本到图像生成的多模态交互对话系统，同时引入了一种全面的多模态对话评估基准，以评估模型在生成准确且连贯的多模态内容上的能力，包括模态切换和输出图像的连贯性。

Mar, 2024

DreamSync：将文本到图像生成与图像理解反馈对齐

通过使用无需标记数据的 DreamSync 训练算法，结合大视觉语言模型（VLMs）来改进文本到图像模型（T2I）的语义对齐和美观度。

Nov, 2023