评估大型语言模型的程序执行运行时行为
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
CodeMind 是一个评估大型语言模型的代码推理能力的框架,通过 Independent Execution Reasoning(IER)、Dependent Execution Reasoning(DER)和 Specification Reasoning(SR)三个任务对九个大型语言模型进行了广泛评估,发现它们对于简单的程序和可以正确合成的程序在控制流构造和输入到输出的推理方面表现良好,但对于更复杂、具有非平凡逻辑和算术运算符、非基本类型和 API 调用的代码,它们的性能下降。此外,规范推理(代码合成所必需的)与执行推理(用于更广泛的编程任务,如测试和调试)相关但不相等,基于测试通过来排名大型语言模型的结果可能与代码推理不同。
Feb, 2024
通过有效性和冗余性评估推理质量,我们提出了 ReasonEval 方法,该方法在数学任务中表现优异,并发现提高最终答案准确性并不一定能改善复杂数学问题推理步骤的整体质量。
Apr, 2024
大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务,然而,这些模型往往会产生不正确和误导性的信息,主要原因是一致性和推理能力的不足,因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力,并发现专有模型在一致性和推理能力方面通常优于公开模型,但即使面对基本的常识问题,没有一个模型在一致性和推理能力上都达到 90% 的得分。
Apr, 2024
通过使用 RealHumanEval、静态基准以及优先度度量,研究了大型语言模型(LLMs)在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力,但基准性能与人类表现之间的差距并不成比例,同时程序员的偏好与实际表现并无关联,这促使我们需要更好、以人为中心的评估指标。同时,我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。
Apr, 2024
最近,大型语言模型(LLMs),特别是那些在代码上进行预训练的模型,展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而,这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务(包括语义解析、数学推理和 Python 编程)中的语言到代码生成能力,分析了可能影响它们性能的因素,如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能,我们还衡量了模型的置信度校准情况,并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时,我们还发布了评估框架和所有模型输出,希望为今后在该领域的进一步研究奠定基础。
Sep, 2023
利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
Oct, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
该论文介绍了 AutoRace 和 LLM Reasoners,分别用于评估和实现不同的推理方法,以解决大型语言模型在生成推理链时所面临的挑战。
Apr, 2024
通过轮回正确性作为替代的评估方法,我们能够在更广泛的实际软件领域对代码大型语言模型进行评估,并展示了如何将轮回正确性应用于代码合成和编辑中,通过与现有的狭域代码合成基准的模型性能进行强相关性对比,同时在没有昂贵人工标注的情况下,使我们能够扩展到更广泛的领域和任务。
Feb, 2024