ACLJun, 2023

利用代码生成的模块化视觉问答

TL;DR我们提出的框架将视觉问答问题视为模块化代码生成,并通过 Python 程序调用和组合视觉模型的输出来提高准确性。