从计算到裁决:考察大语言模型在数学推理任务中的表现
大型语言模型(LLMs)的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种LLMs是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现,这些被测试的LLMs在传统形式上解决这些问题的能力有限。我们进行了后续实验,探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异,但总体性能并未提高。此外,我们还发现性能与展示格式和内容以出人意料的方式相互作用,与人类表现有所不同。总的来说,我们的结果表明LLMs具有独特的推理偏见,其只能部分预测人类的推理表现。
Sep, 2023
这项研究探索了大语言模型的批判能力,并开发了一个评估框架来评估模型的能力,发现批判一般对大多数模型来说都很具有挑战性,而自我批判尤其困难。研究还介绍了一种名为自我检查的简单而有效的基准方法,以提高各种模型的任务表现。希望这项研究能为理解大语言模型的批判能力提供初步的探索,并在促进未来研究和更好地应用批判于不同任务方面发挥指导作用。
Oct, 2023
采用人类和大型语言模型作为评判者(即人类和LLM评判者)来评估现有LLM的性能已经引起了关注。然而,这种方法同时引入了人类和LLM评判者的潜在偏见,对评估结果的可靠性提出了质疑。本文提出了一种针对LLM和人类评判者的5种偏见的新框架。我们整理了一个包含142个样本的数据集,涉及修订后的布鲁姆分类法,并进行了数千次人类和LLM评估。结果表明,人类和LLM评判者在不同程度上都容易受到扰动,并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对LLM评判者进行了攻击。我们希望我们的工作能让社区意识到人类和LLM评判者在面对扰动时的脆弱性,以及开发健壮评估系统的紧迫性。
Feb, 2024
利用CriticBench评估和解析17个大型语言模型在生成、批评和纠正推理(即GQC推理)中的性能,发现GQC能力呈线性关系,批评训练显著增强性能,校正效果因任务而异,逻辑导向任务更容易纠正,模型大小增加可以减少GQC知识的不一致性,强模型在批评弱模型方面表现更好,而弱模型在自我批评方面却能出人意料地超过强模型,为大型语言模型的批评和自我改进研究提供了深入理解。
Feb, 2024
我们通过定义四个评估任务,并设计多样的提示来全面评估十一种代表性的LLM模型,从考官的角度出发,为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明GPT-4在所有模型中表现最佳,而开源模型LLaMA-2-7B的能力与闭源模型GPT-3.5和Gemini Pro相当。尤其是计算错误被证明是最具挑战性的错误类型。此外,使用错误类型提示LLM可以将平均修正准确率提高47.9%。这些结果揭示了开发LLM的数学推理能力的潜在方向。
Jun, 2024
这篇论文通过对多种语言模型作为判断者的性能进行全面研究,发现了使用Cohen的kappa作为测度对齐度的重要性,并比较了不同模型之间的判断数据;该研究发现Llama-3 70B和GPT-4 Turbo语言模型的表现优于人类,然而在排名考生模型方面,JudgeLM-7B和词汇判断器Contains比人类的对齐度低多达34分。通过错误分析和其他研究,包括指导长度和仁慈偏见的影响,该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。
Jun, 2024
本研究解决了传统评估指标在评估大型语言模型生成的自由形式文本时存在的局限性。我们提出了一种参考引导裁决的方法,通过多种大型语言模型作为评审进行更可靠的评估,显著提高了与人类判断的一致性。实验结果表明,该方法有效且可扩展,为生成式人工智能的自动评估提供了新思路。
Aug, 2024
该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现,研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。
Aug, 2024
本研究解决了当前开放式任务评估方法不足的问题,提出了一种参考引导判决方法,利用多个大语言模型作为评审者自动评估生成文本。实验表明,该方法显著提高了评估的可靠性和准确性,并与人类评估结果相关性强,成为传统指标和人类判断的有效替代方案。
Aug, 2024