Feb, 2024

PCA-Bench: 评估感知 - 认知 - 行动链中的多模态大型语言模型

TL;DRPCA-Bench 是一个用于评估多模态大型语言模型(MLLMs)综合能力的多模态决策基准,引入了三个复杂场景:自动驾驶、家庭机器人和开放世界游戏,并提出了误差定位能力和自动评估协议 PCA-Eval 对 10 种著名 MLLM 进行评估结果显示开源模型和 GPT-4 Vision 等强大专有模型之间存在显著性能差异,通过引入基于体验环境的自动框架 Embodied-Instruction-Evolution(EIE),在 PCA-Bench 中生成了 7,510 个训练示例,并提高了开源 MLLM 的性能,偶尔超越 GPT-4 Vision(+3%决策准确性),验证了 EIE 的有效性,发现 GPT4-Vision 之类的鲁棒 MLLM 对体验型代理的决策具有潜力,为 MLLM 研究开辟了新的道路。