CVPRDec, 2022
从图像到文本提示:使用 Frozen 大语言模型进行零样本 VQA
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models
Jiaxian Guo, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Boyang Li...
TL;DR提出了 Img2Prompt 模块,它可以提供可以描述图像内容和自构建问题答案对的提示,并且能够帮助 LLMs 执行无需端到端训练的零射击 VQA 任务。