BBA：大型视觉语言模型的双模行为对齐推理

Feb, 2024

BBA：大型视觉语言模型的双模行为对齐推理

BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

Xueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong...

TL;DR我们引入了 Bi-Modal Behavioral Alignment (BBA) 提示方法，旨在最大程度地发挥 DSL 在增强复杂的多模态推理任务中的潜力，通过为视觉和 DSL 表示创建分离推理链条，并通过解决任何不一致性来使这些链条对齐，从而实现不同模态行为的协调一致。我们的实验表明，BBA 显著提高了 GPT-4V 在几何问题求解（从 28.34% 提高到 34.22%）、国际象棋位置优势预测（从 42.08% 提高到 46.99%）和分子属性预测（从 77.47% 提高到 83.52%）方面的性能。

Abstract

multimodal reasoning stands as a pivotal capability for large vision-language models (LVLMs). The integration with domain-specific languages (DSL), offering precise visual representations, equips these models wit

multimodal reasoning large vision-language models domain-specific languages chain-of-thought prompting method bi-modal behavioral alignment

发现论文，激发创造

实现统一的多模态推理框架

利用链式思维和视觉问答技术，通过评估文本嵌入方法和视觉嵌入方法的有效性，研究如何提高深度学习模型在解决多项选择问题方面的准确性，实验结果显示这些方法在增强推理和问答能力方面具有潜力。

Dec, 2023

多模态大型语言模型中的图推理图渲染

本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性，并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。

Feb, 2024

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024

量化和减轻多模大型语言模型中的单模偏差：因果视角

近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中，我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测，并通过深入的因果分析评估偏见的因果效应。受到因果图的启发，我们引入了一个名为 MORE 的新数据集，包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力，需要进行多跳推理和克服单模态偏见。此外，我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力，包括针对有限访问 MLLMs 的 “分解 - 验证 - 回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。

Mar, 2024

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

AlignMMBench：对大规模视觉 - 语言模型中的中文多模态对齐进行评估

本研究通过引入 AlignMMBench，一个专门为新兴的中文视觉 - 语言模型设计的综合对齐基准，从真实场景和中国互联网来源精心策划，并包括三个类别中的十三个具体任务，以及单轮和多轮对话场景。通过结合一个提示重写策略，AlignMMBench 包括 1054 个图像和 4978 个问答对。为了促进评估流程，我们提出了 CritiqueVLM，一个超越 GPT-4 评估能力的规则校准评估器。最后，我们报告了 AlignMMBench 上代表性 VLM 的性能，提供了不同 VLM 架构的能力和限制的见解。

Jun, 2024

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024

VisionGraph：在视觉环境下利用大型多模态模型解决图论问题

大型多模态模型（LMMs）在视觉理解和推理方面取得了令人瞩目的成功，显著提高了数学推理在视觉环境中的性能。然而，多模态图理论问题是一类具有挑战性的视觉数学问题，要求 LMMs 准确理解图形结构并在视觉图上进行多步推理。我们首次设计了一个名为 VisionGraph 的基准，用于探索先进 LMM 在解决多模态图论问题方面的能力。它包括八个复杂的图问题任务，从连通性到最短路径问题。随后，我们提出了一个描述 - 编程 - 推理（DPR）链，在图形结构描述生成和算法感知的多步推理过程中提高了逻辑准确性。我们的广泛研究表明：1）GPT-4V 在多步图推理方面优于 Gemini Pro；2）无论在零 / 少样本设置还是在受监督微调（SFT）中，所有 LMM 在图形结构的感知准确性方面表现较差，这进一步影响了问题解决的性能；3）DPR 显著提高了 LMM 的多步图推理能力，GPT-4V（DPR）代理达到了 SOTA 性能。

May, 2024