EMNLPNov, 2023

为视觉问答填补图像信息缺口:引导大规模语言模型主动提问

TL;DR通过设计一种框架,使得大型语言模型能够主动提问以揭示图像中的更多细节,改进了知识驱动的视觉问答任务的性能。