多模态大语言模型（MLLMs）中的视觉推理和多智能体方法：解决 TSP 和 mTSP 组合挑战

Jun, 2024

多模态大语言模型（MLLMs）中的视觉推理和多智能体方法：解决 TSP 和 mTSP 组合挑战

Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges

PDF

Mohammed Elhenawy, Ahmad Abutahoun, Taqwa I.Alhadidi, Ahmed Jaber, Huthaifa I. Ashqar...

TL;DR多模态大语言模型（MLLMs）利用覆盖文本、图像和音频的全面知识来灵活应对复杂问题，包括零样本上下文学习场景。本研究探讨了 MLLM 在使用描绘二维平面上点分布的图像解决旅行商问题（TSP）和多旅行商问题（mTSP）的能力。我们引入了一种创新的方法，使用多个专门的代理人在 MLLM 框架内，每个代理人都致力于优化这些组合挑战的解决方案。实验研究涉及严格的零样本设置评估，并引入了创新的多代理零样本上下文场景。结果表明，多代理模型（Multi-Agent 1 和 Multi-Agent 2）显著改善了 TSP 和 mTSP 问题的解决质量。Multi-Agent 1 在需要详细路径优化和评估的环境中表现出色，为复杂优化提供了一个稳健的框架。相反，Multi-Agent 2 侧重于由初始化器和评论者进行迭代优化，在快速决策场景中表现出有效性。这些实验取得了有希望的结果，展示了 MLLM 在解决多样化组合问题中的强大视觉推理能力。这些发现强调了 MLLM 作为计算优化强大工具的潜力，为这个有希望领域的进一步发展提供了启示。

Abstract

multimodal large language models (MLLMs) harness comprehensive knowledge spanning text, images, and audio to adeptly tackle complex problems, including zero-shot in-context learning scenarios. This study explores the ability of MLLMs in visually solving the →

multimodal large language models traveling salesman problem multiple traveling salesman problem multi-agent models visual reasoning capabilities

发现论文，激发创造

使用多模态大型语言模型解决组合问题：一个关于旅行推销员问题的案例研究

本文探讨了多模态大型语言模型（MLLMs）利用其视觉能力通过分析平面上点分布的图像来 “观察” 解决旅行商问题（TSP）的方法。实验证实了零样本、少样本、自我集成和自我精化零样本评估的结果令人鼓舞，我们期待这些发现将激发进一步探索 MLLMs 的视觉推理能力，以解决其他组合问题。

Jun, 2024

大型语言模型利用形式验证工具进行严谨旅行规划

提出了一种以大型语言模型为基础的交互规划框架，利用可满足性模理论和 SMT 求解器解决复杂组合优化问题，并在旅行规划领域取得高成功率。

Apr, 2024

基于 GPT-3.5 Turbo 的旅行推销员问题的大型语言模型组合问题求解探索

研究表明，通过使用大型语言模型（LLMs）结合零 - shot 上下文学习、自执行学习等方法以及自集成方法，可以提高解决旅行推销员问题（TSP）的效果。

May, 2024

大型语言模型的多阶段规划任务中的类人推理框架

我们在此研究中专注于解决多阶段旅行计划问题，通过开发类似人类规划模式的规划框架来提高 LLM 代理的规划能力，实验结果表明我们的框架与 GPT-4-Turbo 结合能够在旅行计划任务中获得显著的性能提升。

May, 2024

VisionGraph：在视觉环境下利用大型多模态模型解决图论问题

大型多模态模型（LMMs）在视觉理解和推理方面取得了令人瞩目的成功，显著提高了数学推理在视觉环境中的性能。然而，多模态图理论问题是一类具有挑战性的视觉数学问题，要求 LMMs 准确理解图形结构并在视觉图上进行多步推理。我们首次设计了一个名为 VisionGraph 的基准，用于探索先进 LMM 在解决多模态图论问题方面的能力。它包括八个复杂的图问题任务，从连通性到最短路径问题。随后，我们提出了一个描述 - 编程 - 推理（DPR）链，在图形结构描述生成和算法感知的多步推理过程中提高了逻辑准确性。我们的广泛研究表明：1）GPT-4V 在多步图推理方面优于 Gemini Pro；2）无论在零 / 少样本设置还是在受监督微调（SFT）中，所有 LMM 在图形结构的感知准确性方面表现较差，这进一步影响了问题解决的性能；3）DPR 显著提高了 LMM 的多步图推理能力，GPT-4V（DPR）代理达到了 SOTA 性能。

May, 2024

大型语言模型（LLM）作为多个专家代理系统：解决抽象和推理语料库（ARC）挑战的方法

使用大型语言模型（LLMs）作为多个专家代理系统，通过在零样本、少样本、上下文引导提示的情况下启动 LLMs 的灵活性，我们试图解决抽象和推理语料库（ARC）挑战。通过将输入图像转换为多个适合的基于文本的抽象空间，我们利用 LLMs 的联想能力推导出输入输出关系，并将其映射到工作程序形式的行动，类似于 Voyager / Ghost in the MineCraft。此外，我们使用迭代环境反馈来指导 LLMs 解决任务。我们的方法在训练集问题的 111 个问题中实现了 50 个解决方案（45%），仅使用三个抽象空间 - 网格、对象和像素。我们相信通过更多的抽象空间和可学习的行动，我们将能够解决更多问题。

Oct, 2023

MMCTAgent：复杂视觉推理的多模态批判性思维代理框架

这篇论文介绍了 MMCTAgent，这是一个新颖的多模态批判性思维代理框架，旨在解决当前 MLLM 在复杂视觉推理任务中的固有限制。通过从人类认知过程和批判性思维中获得灵感，MMCTAgent 迭代地分析多模态信息，分解查询，计划策略，并动态发展其推理能力。此外，MMCTAgent 还融入了验证最终答案和自我反思的批判性思维元素，通过定义基于视觉的评论员并识别任务特定的评估标准，从而增强其决策能力。通过在各种图像和视频理解基准上进行严格评估，我们证明 MMCTAgent（有和无评论员）优于基础 MLLM 和其他工具增强的流水线。

May, 2024

语言代理的元任务规划

此研究论文介绍了 Meta-Task Planning (MTP)，一种用于协作式基于大型语言模型的多智能体系统的零样本方法，通过将复杂任务分解成次级任务或元任务来简化任务规划，进而将每个元任务映射为可执行动作。该方法在 TravelPlanner 和 API-Bank 两个基准测试中进行了评估，取得了出色的结果，显示了将 LLM 与多智能体系统整合的巨大潜力。

May, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

思路规划：以启发式引导的大型语言模型问题解决方案

在本研究中，我们使用基于规划的方法结合部分可观察马尔可夫决策过程（POMDPs）来解决多步骤的问题，并通过 POMCP 在线求解器在 24 点游戏任务上展现出了 89.4% 的优越成功率，同时也提供了比之前使用的固定树搜索更好的任意时间性能。

Apr, 2024