Feb, 2024

BBA:大型视觉语言模型的双模行为对齐推理

TL;DR我们引入了 Bi-Modal Behavioral Alignment (BBA) 提示方法,旨在最大程度地发挥 DSL 在增强复杂的多模态推理任务中的潜力,通过为视觉和 DSL 表示创建分离推理链条,并通过解决任何不一致性来使这些链条对齐,从而实现不同模态行为的协调一致。我们的实验表明,BBA 显著提高了 GPT-4V 在几何问题求解(从 28.34% 提高到 34.22%)、国际象棋位置优势预测(从 42.08% 提高到 46.99%)和分子属性预测(从 77.47% 提高到 83.52%)方面的性能。