Mar, 2024

m&m's: 评估多步骤多模态任务工具使用的基准

TL;DR实际多模态问题很少通过单一的机器学习模型来解决,通常需要多步计算计划,涉及多个模型的组合。本文引入了一个包含4K+多步多模态任务的基准,其中包括33种工具,涵盖多模态模型、(免费)公共API和图像处理模块,通过使用实际工具集生成自动计划,并提供了一个高质量、可人工验证并可正确执行的任务计划子集。通过对6种流行的LLM模型进行评估,采用两种规划策略(多步骤与逐步规划)、两种计划格式(JSON与代码)和三种反馈类型(解析/验证/执行),并总结了广泛实验的经验教训。