May, 2023

通过多跳指令进行图像操作 -- 新数据集和弱监督的神经符号化方法

TL;DR本篇研究提出一种名为 NeuroSIM 的系统,使用基于领域特定语言 (DSL) 的符号程序将自然语言文本转化为图像操作,实现多模态空间的复杂推理,仅需要视觉问题回答(VQA)的标注数据即可。实验证明,该系统在图像操作方面表现出与已有的监督式数据基准相媲美或胜过的结果。