ACLMay, 2023

使用语言模型反馈的零样本视觉问答

TL;DR该论文提出了一种基于语言模型的字幕模型 LAMOC 方法,用于知识为基础的视觉问题回答(VQA),通过预训练语言模型作为答案预测模型的上下文,实现引导字幕模型的训练和优化,以提高其对任务目标和信息需求的感知能力。