基于检索增强的文本到图像生成器 Re-Imagen
研究中,我们提出了一个统一框架,以多模态大型语言模型(MLLMs)为背景,探索了文本到图像生成和检索之间的关系,并引入了一种生成检索方法,在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估,并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验,证明了我们提出方法的优越性和效果。
Jun, 2024
提出了一种 Imagin 技术,在理解文本方面,利用大型 transformer 语言模型,以高逼真度和深度的语言理解建立了文本到图像的扩散模型,实现了高保真的图像生成。通过一个全面的基准测试 DrawBench,该方法在图像 - 文本对齐和样本质量方面优于 VQ-GAN+CLIP、Latent Diffusion Models 和 DALL-E 2。
May, 2022
本论文提出了 RECO 模型,该模型通过外部记忆检索获取精细化知识,应用于现有视觉文本模型中,并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。
Jun, 2023
本文提出了一种 ReDiffuser 图片修复模型,该模型使用自动生成的描述来完成图片编辑,利用再生学习和交叉注意力向导实现图片对形状的一致性保留,并引入一种协作更新策略,提高图片修复的质量和一致性。实验结果表明,该方法在真实和合成图片编辑方面优于现有方法。
May, 2023
提出了一种用于文本到图像人物检索的新框架,旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器,以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失,该方法在三个流行的基准数据集上取得了最先进的结果。
Jul, 2023
提出一种名为 REACT 的框架用于获取相关网络知识以构建目标领域的定制视觉模型。该框架通过检索与预训练数据集最相关的图像 - 文本对作为外部知识源,并仅训练新的模块化块,冻结所有原始权重,证明了其在零、少、全样本设置下显著提高了分类、检索、检测和分割任务的成功率。
Jan, 2023
MuRAG 是第一个多模态检索增强变压器,利用外部非参数多模态存储器来增强语言生成,并在 WebQA 和 MultimodalQA 两个数据集上实现了最新的准确性,优于现有模型 10-20%绝对值。
Oct, 2022
本研究提出了一个检索增强的框架,使用特征描述性词语作为 dense retriever,从无标注的语料库中创建训练数据,以便在与基于大型自然语言生成模型相比节省 70% 的时间内,取得优于最强基线 4.3% 的成绩。
May, 2023
本文介绍了 instruct-imagen 模型,它解决了异质图像生成任务并且可以泛化到未知任务。我们通过引入多模态指导来完成图像生成的任务表示,利用自然语言将不同的模态(如文本、边缘、风格、主题等)融合在一起,使得丰富的生成意图可以以统一的格式标准化。接着,我们通过两阶段的框架,利用预训练的文本到图像扩散模型进行精调来构建 instruct-imagen 模型。在第一阶段,我们利用检索增强训练方法使模型能够在外部多模态上更好地进行生成。随后,我们对不同的需要视觉语言理解的图像生成任务进行精调,每个任务都与一个包含任务本质的多模态指导相匹配。在各种图像生成数据集上进行的人工评估表明,instruct-imagen 在领域内与先前特定任务的模型相媲美甚至超越,并展示了对未知和更复杂任务的有希望的泛化能力。
Jan, 2024