Jan, 2024

通过一个大型语言模型的一系列问答,将目前基于合成问题的视觉问答普及到人工书写的问题

TL;DR为了解决视觉问答中复杂人类问题的性能问题,提出了一种名为 CoQAH 的新方法,利用大语言模型和基于合成数据训练的 VQA 模型之间的一系列 QA 交互来推理和推导人类问题的逻辑答案,并在 3D 渲染和胸部 X 光图像的两种人类问题类型的数据上实现了最先进的准确性。