多模态大型语言模型中的图推理图渲染

Feb, 2024

多模态大型语言模型中的图推理图渲染

Rendering Graphs for Graph Reasoning in Multimodal Large Language Models

Yanbin Wei, Shuai Fu, Weisen Jiang, James T. Kwok, Yu Zhang

TL;DR本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性，并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。

Abstract

large language models (LLMs) are increasingly used for various tasks with graph structures, such as robotic planning, knowledge graph completion, and common-sense reasoning. Though LLMs can comprehend graph infor

large language models graph structures visual information gitqa benchmark multimodal llms

发现论文，激发创造

GraphLLM：提升大型语言模型的图推理能力

通过将图学习模型与大型语言模型（LLMs）有机地融合，我们介绍了 GraphLLM，一种能够使 LLMs 能够熟练解释和推理图数据的先导性端到端方法，经过多个基础图推理任务的实证评估，结果展示了平均准确率提高 54.44％以及各种图推理任务中 96.45％的显著上下文减少。

Oct, 2023

VisionGraph：在视觉环境下利用大型多模态模型解决图论问题

大型多模态模型（LMMs）在视觉理解和推理方面取得了令人瞩目的成功，显著提高了数学推理在视觉环境中的性能。然而，多模态图理论问题是一类具有挑战性的视觉数学问题，要求 LMMs 准确理解图形结构并在视觉图上进行多步推理。我们首次设计了一个名为 VisionGraph 的基准，用于探索先进 LMM 在解决多模态图论问题方面的能力。它包括八个复杂的图问题任务，从连通性到最短路径问题。随后，我们提出了一个描述 - 编程 - 推理（DPR）链，在图形结构描述生成和算法感知的多步推理过程中提高了逻辑准确性。我们的广泛研究表明：1）GPT-4V 在多步图推理方面优于 Gemini Pro；2）无论在零 / 少样本设置还是在受监督微调（SFT）中，所有 LMM 在图形结构的感知准确性方面表现较差，这进一步影响了问题解决的性能；3）DPR 显著提高了 LMM 的多步图推理能力，GPT-4V（DPR）代理达到了 SOTA 性能。

May, 2024

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024

GraphextQA：评估图增强大语言模型的基准

这篇文章介绍了将图谱模态集成到大型语言模型中的挑战，并提出了一个用于评估和发展图谱 - 语言模型的问答数据集 GraphextQA，同时介绍了一种名为 CrossGNN 的基准模型。通过实验证明了使用图谱的有用性和该任务的困难性。

Oct, 2023

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024

我应该使用哪种模式 - 文字、图案或图片？：理解大型语言模型中的图表

本研究探讨了如何更好地将图形数据与大型语言模型（LLMs）整合，并提出了一种使用各种编码模态（例如文本、图像和模体）和使用不同提示方法来增强 LLMs 在处理复杂图形结构方面的有效性的新方法。研究还介绍了 GraphTMI，这是一个用于评估 LLMs 在图结构分析方面的新基准，重点关注同质性、模体存在和图形难度等因素。关键发现揭示了图像模态在限制令牌的同时保留关键信息方面的更高效性，而且支持由 GPT-4V 等先进视觉语言模型。该研究还考察了不同因素对每种编码模态性能的影响。此研究强调了当前 LLMs 在图形理解和推理任务中的现有限制，并规划了未来的方向。

Nov, 2023

用于图指导调优的联合嵌入

该论文研究了将图模态集成到大型语言模型中，以提升其在图解指令任务中的性能表现，并通过图嵌入训练模型，使其能够理解和基于图表示生成回答。该方法在性能上显著优于图文方法，并且对于较大的图结构保持一致。

May, 2024

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由 LLMs 生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023

VQA-GNN：用多模态语义图推理进行视觉问答

本文介绍了 Visual Question Answering——Graph Neural Network 模型，用于解决视觉理解中的概念层次推理问题，与现有模型相比，该模型将图像级别信息和概念知识进行了统一，并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外，该模型还提供了跨视觉和文本知识领域的可解释性。

May, 2022

多模态知识图谱下的多模态推理

提出了一种利用多模态知识图 (MMKGs) 进行多模态推理的方法 (MR-MKG)，通过利用多模态知识图 (MMKGs) 跨模态地学习丰富的语义知识，显著提高了大型语言模型 (LLMs) 在多模态推理中的能力。通过在仅使用 LLM 参数的 2.25% 进行训练，MR-MKG 在多模态问答和多模态类比推理任务上取得了优越的性能，胜过了之前的最新模型。

Jun, 2024