Aug, 2023

通过学习内心独白解决视觉语言任务

TL;DR通过模拟内心独白过程,我们提出了一种新颖的 Inner Monologue Multi-Modal Optimization (IMMO) 方法来解决复杂的视觉语言问题,通过自问自答的自然语言对话过程,增强了推理和解释能力,为视觉和语言模型的有效融合做出了贡献。