Jun, 2024

多模态大语言模型(MLLMs)中的视觉推理和多智能体方法:解决 TSP 和 mTSP 组合挑战

TL;DR多模态大语言模型(MLLMs)利用覆盖文本、图像和音频的全面知识来灵活应对复杂问题,包括零样本上下文学习场景。本研究探讨了 MLLM 在使用描绘二维平面上点分布的图像解决旅行商问题(TSP)和多旅行商问题(mTSP)的能力。我们引入了一种创新的方法,使用多个专门的代理人在 MLLM 框架内,每个代理人都致力于优化这些组合挑战的解决方案。实验研究涉及严格的零样本设置评估,并引入了创新的多代理零样本上下文场景。结果表明,多代理模型(Multi-Agent 1 和 Multi-Agent 2)显著改善了 TSP 和 mTSP 问题的解决质量。Multi-Agent 1 在需要详细路径优化和评估的环境中表现出色,为复杂优化提供了一个稳健的框架。相反,Multi-Agent 2 侧重于由初始化器和评论者进行迭代优化,在快速决策场景中表现出有效性。这些实验取得了有希望的结果,展示了 MLLM 在解决多样化组合问题中的强大视觉推理能力。这些发现强调了 MLLM 作为计算优化强大工具的潜力,为这个有希望领域的进一步发展提供了启示。