m&m's: 评估多步骤多模态任务工具使用的基准

Mar, 2024

m&m's: 评估多步骤多模态任务工具使用的基准

m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

Zixian Ma, Weikai Huang, Jieyu Zhang, Tanmay Gupta, Ranjay Krishna

TL;DR实际多模态问题很少通过单一的机器学习模型来解决，通常需要多步计算计划，涉及多个模型的组合。本文引入了一个包含4K+多步多模态任务的基准，其中包括33种工具，涵盖多模态模型、（免费）公共API和图像处理模块，通过使用实际工具集生成自动计划，并提供了一个高质量、可人工验证并可正确执行的任务计划子集。通过对6种流行的LLM模型进行评估，采用两种规划策略（多步骤与逐步规划）、两种计划格式（JSON与代码）和三种反馈类型（解析/验证/执行），并总结了广泛实验的经验教训。

Abstract

Real-world multi-modal problems are rarely solved by a single machine learning model, and often require multi-step computational plans that involve stitching several models. Tool-augmented LLMs hold tremendous pr

发现论文，激发创造

理解大型语言模型在自动化规划方面的能力

该研究旨在探讨大型语言模型在自动计划中的应用，研究包括使用何种预训练数据最有效、微调或提示哪种方法最有效以及大型语言模型能否进行计划综合。

May, 2023

MINT: 使用工具和语言反馈评估多轮交互中的LLMs

通过使用工具和自然语言反馈，MINT基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力，并从20个开源和闭源的语言模型分析中发现，在工具交互和自然语言反馈的情况下，LLMs的性能有所提升。

Sep, 2023

多模态大语言模型（MM-LLMs）的最新进展

综述了过去一年多模态大型语言模型（MM-LLMs）的进展，提供了对MM-LLMs的全面调查，包括模型架构和训练流程的设计概述，介绍了26种不同形式的MM-LLMs，并回顾了其在主流基准上的性能以及提升其效力的关键训练方法，同时探索了MM-LLMs领域的前景方向。

Jan, 2024

计划、创建、使用：实际复杂场景中综合工具利用的LLM基准测试

通过UltraTool，我们提供了一个新的基准来改进和评估大型语言模型在实际场景中利用工具的能力，重点关注从规划、创建到应用工具的整个过程，并强调了真实世界的复杂性，需要准确的多步规划来解决问题，从而为这个快速发展的领域提供了新的见解。

Jan, 2024

LLMs无法策划，但可以在LLM-Modulo框架中帮助策划

大语言模型在规划和推理任务中的作用有很多混淆。我们认为，自回归LLM本身无法进行规划或自验证，并指出了文献中常见误解的原因。我们提出了LLM-模块化框架的愿景，将LLM的优势与外部基于模型的验证器在更紧密的双向交互方式中结合起来。我们将展示如何利用LLM获得驱动外部验证器的模型。我们还将论述LLM-模块化框架提供了更好的神经符号方法，通过更灵活的知识、问题和偏好规范，扩展了基于模型的规划/推理范围。

Feb, 2024

评估和开发面向 LLMs 的规划感知技术

基于最近的研究，我们通过实验表明，大语言模型（LLMs)缺乏规划所需的必要技能。基于这些观察，我们提倡将LLMs与经典规划方法相结合的混合方法的潜力。然后，我们引入了一种新颖的混合方法SimPlan，并在一个新的具有挑战性的环境中评估其性能。我们在各种规划领域进行了大量实验，结果表明SimPlan明显优于现有的基于LLMs的规划器。

Feb, 2024

多模态集成如何提升LLM在优化中的性能：基于车辆路径问题的案例研究

通过使用多模式大语言模型处理文本和视觉提示，我们提出一种增强优化性能的方法，在深入理解处理的优化问题方面提供了更综合的视角，类似于人类的认知过程。通过对一个众所周知的组合优化问题进行广泛的实证研究，我们评估了该方法的有效性，并与仅依赖于文本提示的基于大语言模型的优化算法进行了比较，展示了多模式方法的显著优势。

Mar, 2024

LLM-Modulo框架下的强健计划：旅行计划案例研究

大语言模型在旅行规划领域有着显著的实际应用，通过LLM模块化框架的操作，对LLMs的推理能力进行改进，并在基线性能上取得了4.6倍的提升。

May, 2024

MFE-ETP：基于多模态基础模型的具身任务规划的综合评估基准

本文旨在通过深入全面评估多模态基础模型在具身任务规划方面的性能，以展示其在此领域的能力和局限性，首先基于具身任务规划的特性，构建了一个系统化的评估框架，然后提出了一个名为MFE-ETP的新基准，并提供了一个简单易用的自动评估平台，通过此基准和评估平台，我们评估了几种最先进的多模态基础模型，并发现它们明显落后于人类的表现。MFE-ETP是一个与现实任务相关的高质量、大规模、具有挑战性的基准。

Jul, 2024

工具规划师：一种工具增强的多粒度指令的LLM，具有路径规划和反馈机制

本研究解决了工具增强大语言模型与真实用户指令之间的差距，提出了MGToolBench训练数据集，以更好地反映真实场景。创新性地引入了ToolPlanner这一两阶段强化学习框架，通过路径规划和反馈机制，大幅提升了LLM的任务完成和指令遵循能力，实验结果显示相比现有模型显著提高了多项指标。

Sep, 2024