零样本文本到图像生成

Feb, 2021

Zero-Shot Text-to-Image Generation

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss...

TL;DR本文介绍了一种基于 transformer 的 autoregressive 的文本 - 图像生成方法，其与以往的一些领域特定模型相比，具有更好的尺度和零样本表现。

Abstract

text-to-image generation has traditionally focused on finding better modeling assumptions for training on a fixed dataset. These assumptions might involve complex architectures, auxiliary losses, or side informat

text-to-image generation modeling transformer autoregressively zero-shot

发现论文，激发创造

用于文本到图像扩散模型的零样本空间布局调节

使用文本生成图像的方法已显著提高了生成图像建模的状态，通过结合自然语言界面和空间控制，在本文中，我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题，并提出了 ZestGuide，这是一种零 - shot 分割指导方法，可插入预先训练的文本到图像扩散模型中，我们的实验结果表明，在精准对齐所需的输入分割的情况下，与使用相应分割进行训练的组件相比，提高了图像质量，而在 COCO 数据集上，我们的结果比 Paint with Words 更好。

Jun, 2023

ZeroCap：面向视觉语义算术的零样本图像到文本生成

本文介绍了一种将视觉语义模型和大型语言模型相结合的技术，实现了对图像生成描述性文本的能力，且可用于图像算术和视觉类比等高级视觉能力的应用。

Nov, 2021

Lafite2: 少样本文本到图像生成

本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法，通过检索和优化过程综合生成伪文本特征，可以灵活应用于各种情境和模型，并在实验中表现出显著的效果，GAN 模型在完全监督的情况下得到了 6.78 的 FID，是 GAN 最新的 SoTA 结果。

Oct, 2022

使用句子转换器进行零样本文本匹配的自动审计

本文探讨了使用基于 transformer 的 Sentence-Bert 模型进行无监督文本匹配的效率，结果表明该模型对于金融领域内外的文本均有很好的鲁棒性。

Oct, 2022

文本到图像扩散模型是零样本分类器

通过使用扩散模型的去噪能力作为代理，将零样本分类器应用于 Imagen，探究其知识方面并与 CLIP 进行比较，结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当，同时在形状 / 纹理偏差测试方面取得了最先进的结果，能够成功地执行属性绑定，而 CLIP 则不能。因此，我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。

Mar, 2023

自训练的零样本文本分类

本文提出一种基于自训练方法的插入式零样本文本分类技术，无需领域专业知识或经验，仅需要类别标签和无标记数据，可显著提高性能，适用于各种文本分类任务。

Oct, 2022

基于生成对抗网络的噪声文本零样本学习方法

利用生成对抗网络 (GANs) 想象从文本描述中无法见到的类别，生成目标类别的视觉特征，附加伪数据，使得零样本学习自然地转换为传统的分类问题，并提出视觉中心正则化以保持生成特征的跨类别区分能力。实验表明，该方法在基于文本的零样本学习的最大可用基准测试中始终优于现有技术水平。

Dec, 2017

零样本开放词汇分割的扩散模型

本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法，通过考虑采样的图像的背景来更好地定位对象并直接分割背景，并证明该方法可以在多个基准测试中表现出色，在 Pascal VOC 基准测试上领先了超过 10%。

Jun, 2023

利用生成语言模型进行零样本文本分类

本文研究了使用自然语言实现零样本模型对新任务的自适应性，通过社交评论平台的文本和元数据作为简单的预训练任务，并提供分类任务的自然语言描述作为输入训练语言模型，以生成正确答案的方式进行自然语言的模型推广，克服了多任务分类的缺点，在六个基准文本分类数据集上训练出具有零样本性能的生成性语言模型，结果显示语言可以作为任务自适应的简单而强大的描述符，这为文本问题的新元学习策略指明了方向。

Dec, 2019

基于文本条件的语境化头像生成用于零样本定制化

本文提出了一个零射击的管道，该管道可以通过捕捉用户的身份以令人愉悦的方式进行头像生成，具有个性化的图像生成特征，此外，作者使用大规模图像数据集学习人类 3D 姿态参数，克服了动作捕捉数据集的局限性。

Apr, 2023