ZeroGen：多模态离线控制的零样本文本生成

Jun, 2023

ZeroGen：多模态离线控制的零样本文本生成

ZeroGen: Zero-shot Multimodal Controllable Text Generation with Multiple Oracles

Haoqin Tu, Bowen Yang, Xianfeng Zhao

TL;DR提出了一种零样本可控多模态文本生成模型 ZeroGen，将文本和图像联合在解码过程中加权相加，通过动态权重机制调节交叉模态权重来实现多模态控制。模型在三个下游任务中的表现超越了同类模型，表现出良好的可控性和潜力。

Abstract

Automatically generating textual content with desired attributes is an ambitious task that people have pursued long. Existing works have made a series of progress in incorporating unimodal controls into language models (LMs), whereas how to generate controllable sentences with

text generation multimodal signals control language models dynamic weighting

发现论文，激发创造

ZeroGen：通过数据集生成高效的零样本学习

本文研究了一种灵活高效的零样本学习方法 - 零样本生成（ZeroGen），基于预训练语言模型（PLMs）无监督生成数据集，并使用该数据集训练小型模型进行任务处理，从而实现高效推理。实验和分析表明， extsc {ZeroGen} 在文本分类、问答和自然语言推理等 NLP 任务中的有效性。

Feb, 2022

Gen-Z: 基于上下文化标签描述的生成式零样本文本分类

Gen-Z 是一种用于零食文本分类的生成提示框架，通过在标签的自然语言描述上依赖语言模型的可能性来改善任务性能，并在多个标准分类基准上展现了优越性能。

Nov, 2023

ZeroCap：面向视觉语义算术的零样本图像到文本生成

本文介绍了一种将视觉语义模型和大型语言模型相结合的技术，实现了对图像生成描述性文本的能力，且可用于图像算术和视觉类比等高级视觉能力的应用。

Nov, 2021

语言模型的视野：在文本生成中插入视觉控制

本研究提出了一个名为 MAGIC 的无需训练的框架，它能够将视觉控制插入文本生成过程中，并使 LM 在零样本情况下执行多模态任务，如图像字幕生成。在零样本图像字幕生成方面，MAGIC 在几乎 27 倍的解码加速度下，极大地超越了现有的最先进方法。

May, 2022

编码器 - 解码器 Transformer 与零样本控制生成

本研究提出一种零 - shot 方式控制编码器 - 解码器变换器模型，使用三个控制旋钮：注意偏置、混合解码器、和上下文增强，以实现所需属性的生成输出，同时验证了解码器自我注意模块是维护句子流畅性的主要作用，并研究提出可行的转换器解码器替代架构及更高效的训练方法。

Jun, 2021

可控的文本到图像生成

该论文提出了一种新颖的可控文本到图像生成对抗网络 (ControlGAN)，它能够有效地合成高质量图像并根据自然语言描述控制图像的生成。该方法采用词级空间和通道注意力机制对不同的视觉属性进行分离，并通过词级鉴别器提供细粒度的监督反馈，使生成器能够对特定的视觉属性进行操作。通过大量的实验证明，我们的方法优于现有的最先进技术，并能够通过自然语言描述有效地操作合成图像。

Sep, 2019

利用生成语言模型进行零样本文本分类

本文研究了使用自然语言实现零样本模型对新任务的自适应性，通过社交评论平台的文本和元数据作为简单的预训练任务，并提供分类任务的自然语言描述作为输入训练语言模型，以生成正确答案的方式进行自然语言的模型推广，克服了多任务分类的缺点，在六个基准文本分类数据集上训练出具有零样本性能的生成性语言模型，结果显示语言可以作为任务自适应的简单而强大的描述符，这为文本问题的新元学习策略指明了方向。

Dec, 2019

基于预训练大型语言模型的多模态推荐零样本

利用生成型 AI 领域的最新进展，我们提出了一种用于零样本推荐多模态非稳态内容的方法。我们将不同类型的输入呈现为文本描述，并利用预训练的 LLMs 通过计算语义嵌入来获取它们的数值表示。一旦获得了所有内容项的统一表示，可以通过计算它们之间的适当相似性度量进行推荐而无需额外的学习。我们在合成的多模态推动环境中展示了我们的方法，其中输入包括表格、文本和视觉数据。

Sep, 2023

面部图像生成和操作的开放式文本引导实现

该研究提出了一种统一框架来生成和处理面部图像，基于预训练的 GAN 模型，使用两种新颖的策略，直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵，并提出了一个大型数据集 Multi-Modal CelebA-HQ。

Apr, 2021

关于机器生成文本检测器的零样本泛化

大型语言模型的广泛发展使得检测机器生成的文本变得前所未有的重要。本研究通过收集大范围的语言模型生成数据，训练神经检测器并测试其在未经训练的生成器输出上的性能，发现中等规模语言模型训练的检测器能够零样本推广到更大的版本。作为一个具体的应用，我们证明了可以在中等规模模型的训练数据集合上构建强大的检测器。

Oct, 2023