Jul, 2023

视觉 - 语言基础模型的提示工程系统性调查

TL;DR本文系统概述了在三种类型的视觉 - 语言模型上的提示工程的前沿研究,包括多模式到文本生成模型、图像 - 文本匹配模型和文本 - 图像生成模型,并总结和讨论了模型概要、提示方法、基于提示的应用以及相关的责任和完整性问题。此外,还讨论了在提示对视觉 - 语言模型、语言模型和视觉模型的共同点和差异,并对挑战、未来方向和研究机会进行了总结,以推动未来对此主题的研究。