Oct, 2024

TMGBench:评估大型语言模型战略推理能力的系统性游戏基准

TL;DR本研究解决了评估大型语言模型(LM)战略推理能力的现有基准覆盖范围有限、情境缺乏多样性的问题。TMGBench引入了全新的游戏类型和情景,采用合成数据生成方式,构建出多样化的、高质量的故事化游戏。研究发现流行的LM在理性推理、一致性及心智理论等方面存在不足,同时显示TMGBench在评估现代模型时的挑战性。