Aug, 2024

UrBench:用于评估大型多模态模型在多视角城市场景中表现的综合基准

TL;DR本研究针对现有城市环境基准评估中存在的不足,提出了UrBench,一个全面的基准,用于评估大型多模态模型在复杂多视角城市场景中的能力。研究显示,即使是表现最佳的GPT-4o在多项任务中的表现也落后于人类,平均性能差距达到17.4%,揭示了当前模型在城市环境中存在的显著挑战。