大语言模型驱动的文本到图像生成的实证研究与分析

May, 2024

大语言模型驱动的文本到图像生成的实证研究与分析

An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation

Zhiyu Tan, Mengping Yang, Luozheng Qin, Hao Yang, Ye Qian...

TL;DR本研究探讨使用大型语言模型作为文本编码器，在文本到图像生成中提高语言理解能力，并提出了一种高效三阶段训练流程以整合已有的文本到图像模型和大型语言模型，通过轻量级适配器实现快速训练，并证明实验结果在多语言和长输入环境下获得了优秀的图像生成质量。

Abstract

One critical prerequisite for faithful text-to-image generation is the accurate understanding of text inputs. Existing methods leverage the text encoder of the clip model to represent input prompts. However, the

text-to-image generation clip model large language models training pipeline image generation quality

发现论文，激发创造

大型语言模型在扩散模型中的提示编码作用探索

利用新提出的框架，将大型语言模型与文本到图像生成模型灵活地集成在一起，并通过消除固有的位置偏差和增强文本表示能力提高预测性能。

Jun, 2024

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

冻结大型语言模型在视觉信号理解中的应用

我们研究了大型语言模型（LLM）在没有对多模态数据集进行微调的情况下，直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器（V2T Tokenizer），通过编码器 - 解码器、LLM 词汇表和 CLIP 模型将图像转换成 “外语”。通过这种创新的图像编码方式，LLM 不仅具备了视觉理解能力，还能以自回归方式进行图像去噪和恢复，关键是不需要任何微调。我们进行了严格的实验证实了我们的方法，包括图像识别、图像字幕、视觉问题回答等理解任务，以及修复任务，如修复、扩展、去模糊和位移复原。

Mar, 2024

大型语言模型是低样本图像分类的良好触发器学习者

通过整合大型语言模型（LLMs）提升预训练视觉 - 语言模型（VL）在低样本图像分类中的能力，提出了大型语言模型作为提示学习者（LLaMP）的方法，并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。

Dec, 2023

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

CLAMP：对比式语言模型启发调节

研究论文简介：本文研究了大型语言模型在图像分类方面的应用，通过对多模态语言模型进行轻微微调，使用对比式图像 - 标题匹配目标，取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能，同时保留了语言模型的生成能力。

Dec, 2023

基于 CLIP 的图像到文本转换提升多模态理解能力

将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程，本文提出了一种创新的集成方法，利用对比式语言图像预训练模型的能力。

Jan, 2024

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

通过使用多模态大型语言模型，本文提出了一种用于人物图像重新识别的文本到图像转换方法，通过生成各种模板的描述来构建大规模数据集，同时使用相似性判断方法处理不准确的描述，从而显著提升直接转换的文本到图像人物重新识别性能。

May, 2024

从图像空间线性映射到文本空间

该研究探讨了文本型的语言模型对外部世界的表示程度。研究发现，通过单一的线性变换，可以将视觉模型的特征表示连续地传递给被固定的文本型语言模型，从而取得了与同时调整图像和文本的模型相同的指标。研究表明，语言模型的概念表示与以图像为基础的模型在结构上相似，甚至能够转移视觉信息。

Sep, 2022

NLLB-CLIP – 在预算内训练高性能多语言图像检索模型

通过有限的预算，我们尝试解决多语言图像检索的挑战性任务，展示出使用 NLLB-CLIP 模型的训练结果，该模型在低资源语言上的质量与最先进模型相媲美且明显优于它们。

Sep, 2023