Feb, 2024

PCA-Bench: 评估感知-认知-行动链中的多模态大型语言模型

TL;DRPCA-Bench是一个用于评估多模态大型语言模型(MLLMs)综合能力的多模态决策基准,引入了三个复杂场景:自动驾驶、家庭机器人和开放世界游戏,并提出了误差定位能力和自动评估协议PCA-Eval对10种著名MLLM进行评估结果显示开源模型和GPT-4 Vision等强大专有模型之间存在显著性能差异,通过引入基于体验环境的自动框架Embodied-Instruction-Evolution(EIE),在PCA-Bench中生成了7,510个训练示例,并提高了开源MLLM的性能,偶尔超越GPT-4 Vision(+3%决策准确性),验证了EIE的有效性,发现GPT4-Vision之类的鲁棒MLLM对体验型代理的决策具有潜力,为MLLM研究开辟了新的道路。