竞赛级问题对 LLMs 的有效性评估
本文提出自然语言解释和代码生成的联合任务用于解决竞技编程问题。通过实验结果表明,尽管在解决竞技级别编程问题方面表现不佳,但当前最先进的 LLMs 在描述和解释解决方案方面表现出强大的能力,进而提出解释生成方法学生成包含描述和分析的结构化解决方案说明。
Jul, 2023
本文介绍了一个新的基准数据集 JEEBench,用于评估 Large Language Models 的问题解决能力,其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估,发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术,GPT4 的最佳表现仍不到 40%,错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。
May, 2023
最近,大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是,它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题,我们引入了一个名为 SearchBench 的新基准测试,其中包含 11 种独特的搜索问题类型,每种问题类型都配备了自动化流程来生成任意数量的实例,并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现,即使是最先进的 LLM 也无法完全以文本方式解决这些问题,例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯,这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助,但是仅有轻微的改进,例如 GPT4 的表现提升到了 11.7%。在这项工作中,我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时,它的潜力得到了充分展现,将 GPT-4 的表现提升到了 57% 以上。
Jun, 2024
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024
我们引入了一种新颖的评估范式来评估大型语言模型,这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷,传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估,能够有效区分模型之间的认知能力。例如,在我们的基准测试中,GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试(如 GSM8K)未能发现的语言模型的潜在认知缺陷,这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型,揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变,而且对于关于人工通用智能(AGI)的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用,我们旨在促进对 LLM 真正认知能力的更准确评估。
Dec, 2023
该篇研究论文主要介绍了大型语言模型的逻辑推理能力评估,提出了一个名为 GLoRE 的评估基准,包含 12 个数据集,通过实验证明了 ChatGPT 和 GPT-4 在逻辑推理方面的强大能力,并提出了改进方法,发布了数据集和评估程序以促进未来的研究。
Oct, 2023
通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE,本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力,并通过全面的基准测试揭示了目前最先进模型(如 GPT-4o,GPT-4,GPT-3.5Turbo 等)的优点和缺点。此外,我们还发现涉及数据污染和记忆的问题,影响了大型语言模型在实际应用中的可靠性,因此强调了对推理过程进行严格评估的重要性,并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。
Jun, 2024
大型语言模型(LLMs)的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现,这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验,探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异,但总体性能并未提高。此外,我们还发现性能与展示格式和内容以出人意料的方式相互作用,与人类表现有所不同。总的来说,我们的结果表明 LLMs 具有独特的推理偏见,其只能部分预测人类的推理表现。
Sep, 2023
我们通过定义四个评估任务,并设计多样的提示来全面评估十一种代表性的 LLM 模型,从考官的角度出发,为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳,而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外,使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。
Jun, 2024
通过在三个领域(24 点游戏,图着色,STRIPS 规划)对 GPT-4 的表现进行实证研究,我们观察到自我评估导致性能显著下降,而外部验证则带来显著性能提升;然而,评估内容对系统性能并不重要,事实上,简单地使用一个可信的验证器重新提问可以保持大部分优势。
Feb, 2024