LogicGame:大语言模型基于规则推理能力的基准测试
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架,通过游戏和博弈论场景来创建不同的测试环境,并利用概率图模型方法增强模型的导航能力,最终量化评估了七种不同大型语言模型的能力,发现最强模型GPT-4和最弱模型Llama-2-70B之间存在三倍的能力差距,同时证实了概率图模型增强了所有模型的能力,平均提高了50%。
Nov, 2023
对大型语言模型(LLMs)在解谜方面的能力进行探索,揭示了它们在人工智能中的潜力和挑战,这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法,该调查通过各种方法论(包括提示技术、神经符号方法和微调)对LLMs进行了批判性评估。通过对相关数据集和基准的批判性回顾,我们评估了LLMs在复杂谜题情景中的表现,发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升LLMs在解谜方面的熟练度,并为AI的逻辑推理和创造性问题解决的进展做出贡献。
Feb, 2024
通过基于逻辑搭建的推理规则生成框架 ULgogic 对 GPT 系列模型进行分析,揭示了它们在逻辑理解方面与人类表现相比存在的显著差距,尤其是在具有某种偏见模式的复合和结构复杂规则方面;同时,我们采用这些规则构建了一个小规模推理引擎,用于灵活地生成规则并增强下游推理能力,经过多评估者评估,我们的推理引擎证明在生成准确、复杂和抽象的结论和前提方面非常有效,从而为增强大型语言模型的逻辑推理能力提供了启示。
Feb, 2024
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024
使用大型语言模型在游戏中评估策略推理能力的跨领域基准(GameBench)显示,虽然大多数测试模型并不及人类水平,但对策略推理能力的两种框架(CoT和RAP)能够提高分数。
Jun, 2024
本研究针对大型语言模型在规则理解和执行能力评估方面的不足,提出了一个新的基准测试工具LogicGame。该工具通过多样化的游戏场景,强调依据预定义规则进行推理和规划的能力,发现了现有模型在规则基础推理方面的显著缺陷,从而推动了对其决策系统的改进。
Aug, 2024
本研究针对大型语言模型在基于规则的推理和规划能力评估不足的问题,提出了一个新颖的基准工具LogicGame。该基准通过设计含有多项规则的游戏场景,评估模型对规则理解、执行和规划的能力,研究发现许多模型在基于规则的逻辑推理方面存在显著不足,对未来的决策系统与智能体设计具有重要影响。
Aug, 2024
本研究评估了大型语言模型在法学院入学考试(LSAT)中,特别是在逻辑游戏部分的表现。研究构建了一个数据集并探索了不同的提示框架,发现通过改进的提示方法,GPT-4的准确率提高至70%,突出显示了大型语言模型在修正逻辑错误方面的潜力。研究还对模型在不同类型逻辑游戏中的表现进行了深入分析。
Sep, 2024
本研究解决了大型语言模型在规划能力上的评估空缺,提出了一个名为游戏遍历基准(GTB)的新颖测试方法。研究发现,尽管GPT-4-Turbo在基准测试中表现最佳,其得分仅为44.97%,显示出现有模型在这个领域仍面临挑战,提示了后续研究的潜力和方向。
Oct, 2024
本研究解决了评估大型语言模型(LM)战略推理能力的现有基准覆盖范围有限、情境缺乏多样性的问题。TMGBench引入了全新的游戏类型和情景,采用合成数据生成方式,构建出多样化的、高质量的故事化游戏。研究发现流行的LM在理性推理、一致性及心智理论等方面存在不足,同时显示TMGBench在评估现代模型时的挑战性。
Oct, 2024