连贯的零射视觉指令生成
通过将潜在扩散模型与大型语言模型结合,我们提出了一种生成一致图像序列的方法,用于配合多步骤的指南,并在人类参与实验中被 46.6% 的人选择为最佳方法,同时自动评价指标表明该方法在两个领域中能够维持语义连贯性和视觉一致性。
May, 2024
本文提出了一种基于文本的神经管道,利用预训练的语言模型和文本引导的潜在扩散模型来生成一系列连贯的图像,实现连贯的故事书生成,并展示了无需昂贵的图像 - 标题对训练的文本转换技术的性能表现。
Feb, 2023
生成用户定制的视觉说明书的新任务,通过结合大型语言模型和文本到图像生成扩散模型实现了一种简单方法(StackedDiffusion),在有效性、一致性和效果的度量上远远超过基线方法和最先进的多模态语言模型。
Dec, 2023
使用文本生成图像的方法已显著提高了生成图像建模的状态,通过结合自然语言界面和空间控制,在本文中,我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题,并提出了 ZestGuide,这是一种零 - shot 分割指导方法,可插入预先训练的文本到图像扩散模型中,我们的实验结果表明,在精准对齐所需的输入分割的情况下,与使用相应分割进行训练的组件相比,提高了图像质量,而在 COCO 数据集上,我们的结果比 Paint with Words 更好。
Jun, 2023
本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用,在形状、纹理和颜色上强制执行分层的跨帧约束,实现低成本下的全局样式和局部纹理的时空一致性。
Jun, 2023
最近,在生成式扩散模型方面取得的进展使得文本控制下合成逼真多样的图像具备了令人印象深刻的质量。但尽管取得了这些显著进展,将文本到图像生成模型应用于标准视觉识别任务的研究仍然有限。本文提出了一种计算机视觉任务的统一语言界面,该界面抽象了任务的具体设计选择,使得任务能够通过自然语言指令来执行。我们将多个计算机视觉任务转化为文本到图像生成问题,其中文本描述任务,生成的图像为视觉编码的任务输出。我们使用大规模语言模型来改写传达每个图像上要执行的特定任务的提示模板,并通过这个过程,创建了一个多模态和多任务训练数据集,包括输入图像、输出图像和带注释的指导说明。通过在构建的数据集上使用 InstructPix2Pix 架构将文本到图像扩散模型进行调节,将其功能从生成模型转变为基于指导的多任务视觉学习器。实验证明,我们的模型 InstructCV 在与其他综合和特定任务视觉模型的竞争中表现出色。而且,它还具备令人信服的对未见数据、类别和用户指令的泛化能力。
Sep, 2023
通过对复杂视觉推理任务进行重点指导,我们设计了一个系统性的方法来自动创建高质量的复杂视觉推理指导,实验证明我们的数据集显著提高了所有比较的多模态大型语言模型的性能。
Nov, 2023
本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法,通过考虑采样的图像的背景来更好地定位对象并直接分割背景,并证明该方法可以在多个基准测试中表现出色,在 Pascal VOC 基准测试上领先了超过 10%。
Jun, 2023