基于检索增强的文本到图像生成器 Re-Imagen

Sep, 2022

基于检索增强的文本到图像生成器 Re-Imagen

Re-Imagen: Retrieval-Augmented Text-to-Image Generator

Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen

TL;DR本研究介绍了一种检索增强的文本到图像生成器，该模型使用外部多模态知识库来提高对罕见实体的识别精度，并取得了明显的 FID 分数提升。

Abstract

Research on text-to-image generation has witnessed significant progress in generating diverse and photo-realistic images, driven by diffusion and auto-regressive models trained on large-scale image-text data. Though state-of-the-art models can generate high-quality images of common ent

text-to-image generation retrieval-augmented text-to-image generator multi-modal knowledge base generative model image fidelity

发现论文，激发创造

统一的文本到图像生成和检索

研究中，我们提出了一个统一框架，以多模态大型语言模型（MLLMs）为背景，探索了文本到图像生成和检索之间的关系，并引入了一种生成检索方法，在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估，并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验，证明了我们提出方法的优越性和效果。

Jun, 2024

具有深度语言理解的照片级文本到图像扩散模型

提出了一种 Imagin 技术，在理解文本方面，利用大型 transformer 语言模型，以高逼真度和深度的语言理解建立了文本到图像的扩散模型，实现了高保真的图像生成。通过一个全面的基准测试 DrawBench，该方法在图像 - 文本对齐和样本质量方面优于 VQ-GAN+CLIP、Latent Diffusion Models 和 DALL-E 2。

May, 2022

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023

使用丰富提示进行零样本图像转换的扩散模型再生学习

本文提出了一种 ReDiffuser 图片修复模型，该模型使用自动生成的描述来完成图片编辑，利用再生学习和交叉注意力向导实现图片对形状的一致性保留，并引入一种协作更新策略，提高图片修复的质量和一致性。实验结果表明，该方法在真实和合成图片编辑方面优于现有方法。

May, 2023

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

使用检索增强的知识，学习定制的视觉模型

提出一种名为 REACT 的框架用于获取相关网络知识以构建目标领域的定制视觉模型。该框架通过检索与预训练数据集最相关的图像 - 文本对作为外部知识源，并仅训练新的模块化块，冻结所有原始权重，证明了其在零、少、全样本设置下显著提高了分类、检索、检测和分割任务的成功率。

Jan, 2023

MuRAG: 图像和文本开放式问答的多模式检索增强生成器

MuRAG 是第一个多模态检索增强变压器，利用外部非参数多模态存储器来增强语言生成，并在 WebQA 和 MultimodalQA 两个数据集上实现了最新的准确性，优于现有模型 10-20％绝对值。

Oct, 2022

ReGen: 通过渐进式稠密检索生成训练数据进行零样本文本分类

本研究提出了一个检索增强的框架，使用特征描述性词语作为 dense retriever，从无标注的语料库中创建训练数据，以便在与基于大型自然语言生成模型相比节省 70% 的时间内，取得优于最强基线 4.3% 的成绩。

May, 2023

Instruct-Imagen: 多模态指导下的图像生成

本文介绍了 instruct-imagen 模型，它解决了异质图像生成任务并且可以泛化到未知任务。我们通过引入多模态指导来完成图像生成的任务表示，利用自然语言将不同的模态（如文本、边缘、风格、主题等）融合在一起，使得丰富的生成意图可以以统一的格式标准化。接着，我们通过两阶段的框架，利用预训练的文本到图像扩散模型进行精调来构建 instruct-imagen 模型。在第一阶段，我们利用检索增强训练方法使模型能够在外部多模态上更好地进行生成。随后，我们对不同的需要视觉语言理解的图像生成任务进行精调，每个任务都与一个包含任务本质的多模态指导相匹配。在各种图像生成数据集上进行的人工评估表明，instruct-imagen 在领域内与先前特定任务的模型相媲美甚至超越，并展示了对未知和更复杂任务的有希望的泛化能力。

Jan, 2024

检索增强的多模态语言建模

提出了一种 “检索增强的多模态模型”，结合了预检索检索任务和预训练的模型，在图像生成和描述生成任务上实现了比以前模型更好的表现，同时大大降低了训练成本。

Nov, 2022