Nov, 2024

BALROG:评估智能LLM和VLM游戏推理的基准

TL;DR本研究针对大语言模型(LLM)和视觉语言模型(VLM)在复杂动态环境中的不足,提出了BALROG基准,用于评估其在多样化游戏中的智能能力。该基准通过细致的性能指标,对当前流行的LLM和VLM进行广泛评估,结果显示这些模型在简单任务中表现尚可,但在更具挑战性的任务中明显受限,尤其是在视觉决策方面的缺陷显著。此工作为智能领域的未来研究和开发提供了一个开放且易于使用的基准。