该研究提出了一个统一框架,通过相同的语言建模目标,在单个体系结构中学习不同的任务,实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现,这种生成方法(在单个统一的体系结构下)显示出了与最先进的特定任务模型相当的性能,并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。
Feb, 2021
本文研究了图片到文本和文本到图片生成的联合学习,使用了基于Transformer 的单个多模式模型来统一学习双向任务,并通过两级粒度特征表示和序列级训练进一步改进Transformer的统一框架,实验证明,该方法显著提高了先前基于Transformer的模型X-LXMERT的文本到图像生成的FID(37.0→29.9)和在MS-COCO数据集上对细调图像到文本生成的CIDEr-D得分(100.9%→122.6%)。
Oct, 2021
Muse是一种基于遮蔽建模任务在离散令牌空间中训练的文本到图像Transformer模型,借助预训练的大型语言模型,实现了高度还原原始文本意图的图像生成能力,同时也能够直接应用于图像编辑等任务。
Jan, 2023
本篇论文提出了一种基于变压器的联合视觉与语言模型,名为MAGVLT,它可以生成图像和文本序列,并且相对于以前的模型具有双向上下文编码和更快的并行词汇预测等优点。经过实验证明,MAGVLT可以在零样本情况下使用较小的模型(少于500M参数)在 MS-COCO 数据集上取得很好的成果。
Mar, 2023
本文介绍了 MiniGPT-4 模型,该模型利用像GPT-4这样的先进的大型语言模型(LLM)与视觉编码器对齐,可以生成详细的图像描述和从手写草图中创建网站等多重能力,采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。
Apr, 2023
视觉语言任务中,基于预训练的变压器架构在视觉语言建模方面表现出色,为视觉和语言结合的任务带来了类似的进展。
Jul, 2023
提出了一种从仅包含图像的数据集中生成图像特定的精细文本描述,并证明这些文本描述可以用于改进分类的方法GIST,并通过在图像和生成的文本对上对视觉语言模型进行微调以学习对齐的视觉语言表示空间,从而在多个领域的四个不同领域的细粒度分类数据集上实现了4.1%的准确率提升,并在全样本和少样本情况下实现了类似的改进。
我们引入了生成无限词汇的变换器(GIVT),其生成具有实值条目的向量序列,而不是来自有限词汇的离散标记。
Dec, 2023
VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
这篇论文提出了一种简单而有效的框架,名为GiT,它能够同时适用于各种视觉任务,只需一个简单的ViT模型。
Mar, 2024