LoGoPrompt：合成文本图像可以成为视觉 - 语言模型的良好视觉提示

ICCVSep, 2023

LoGoPrompt：合成文本图像可以成为视觉 - 语言模型的良好视觉提示

LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models

Cheng Shi, Sibei Yang

TL;DR本文通过引入合成文本图像作为类别相关的视觉提示，探索了视觉 - 语言模型中视觉提示的作用，并提出了一种 LoGoPrompt 方法，该方法在少样本学习、从基础到新领域的泛化以及领域泛化方面表现出一致优于现有方法的实验结果。

Abstract

prompt engineering is a powerful tool used to enhance the performance of pre-trained models on downstream tasks. For example, providing the prompt ``Let's think step by step" improved GPT-3's reasoning accuracy t

prompt engineering pre-trained models visual prompt synthetic text images few-shot learning

发现论文，激发创造

文本到图像生成系统的提示日志分析

最近，大型语言模型和生成式人工智能的出现，释放了文本转图像生成系统惊人的能力，以合理的方式将高质量的图像综合到给定的参考文本中。我们进行了第一次大规模的记录，这些记录由多个文本到图像生成系统收集。我们的研究发现表示用户输入的文本与生成模型的训练数据之间存在很大的差距，并建议我们如何提高这些系统的性能。

Mar, 2023

图像标题是文本到图像模型的自然提示

论文理论分析了合成数据的训练效果和提示诱导的合成数据分布之间的关系，并相应地提出了一种简单而有效的方法，通过图像字幕和类名来提示生成模型，从而合成更具信息性和多样性的训练数据。实验证明，该方法显着提高了在合成训练数据上训练的模型的表现。

Jul, 2023

BeautifulPrompt: 文本到图像合成的自动提示工程化

我们提出了 BeautifulPrompt，这是一个深度生成模型，可以从非常简单的原始描述中生成高质量的提示，从而使基于扩散模型生成更美丽的图像。我们使用视觉 AI 反馈的强化学习技术来进一步优化模型，以提高生成的提示和图像的质量，并将 BeautifulPrompt 集成到云原生 AI 平台，提供更好的云端文本到图像生成服务。

Nov, 2023

文本到图像模型的最佳提示及其发现方法

本研究使用基因算法，结合人类反馈，学习组合最有用的提示关键字，以改善使用描述生成艺术图像的美感。

Sep, 2022

视觉 - 语言基础模型的提示工程系统性调查

本文系统概述了在三种类型的视觉 - 语言模型上的提示工程的前沿研究，包括多模式到文本生成模型、图像 - 文本匹配模型和文本 - 图像生成模型，并总结和讨论了模型概要、提示方法、基于提示的应用以及相关的责任和完整性问题。此外，还讨论了在提示对视觉 - 语言模型、语言模型和视觉模型的共同点和差异，并对挑战、未来方向和研究机会进行了总结，以推动未来对此主题的研究。

Jul, 2023

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

Instruction-ViT: ViT 中用于指令学习的多模态提示

本篇论文研究了采用提示（prompt）对图片进行分类的方法，通过引入多模质询与 fine-tuning 相结合的方式，提高了图片分类的性能和领域适应性。

Apr, 2023

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

在像素级别释放视觉提示的威力

本文提出一种简单且有效的视觉提示方法，用于将预训练模型适应下游识别任务。并重新引入了两种常用技术，即输入多样性和梯度归一化。该方法在 12 个流行的分类数据集上创造了 82.8％的平均准确率的记录，并提供了代码。

Dec, 2022

LaViP: 语言驱动的视觉提示

通过语言引导的视觉提示方法，我们使视觉语言模型的视觉编码器适应下游任务，从而提高适应性和泛化性能。

Dec, 2023