Apr, 2024

使用忠实、简洁和可传递的原理教授 MLLMs

TL;DR在这项研究中,我们引入了一种名为 Fact 的新范式,旨在生成忠实、简洁和可传递的多模态理由,通过可验证的视觉编程生成可执行的代码,从而增强了它的忠实性和精确性,并通过剪枝、合并和桥接等一系列操作提高了简洁性,同时通过过滤可以从编程范式传递到端到端范式的理由来保证可传递性,实验证据表明我们的方法在各种参数大小的模型上都表现出优异的组合推理和泛化能力,而且由于图像和文本之间的高相关性,我们的方法还减少了错觉。