大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现,评估基准泄漏会极大地提高评估结果,从而导致对模型性能的不可靠评估。最后,为大型语言模型的开发者和基准维护者提出了一些建议。
Nov, 2023
机器学习在自动程序修复领域中广泛应用,使用神经机器翻译和大型语言模型生成软件补丁等任务,但与以往的研究存在重要差异,因此评估和比较结果必须谨慎确保其有效性和普遍性,挑战在于现有的评估基准并非针对机器学习技术设计,尤其是大型语言模型,其训练数据集通常庞大且披露不足,可能包含了其所评估的问题。
May, 2024
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
对大型语言模型在编程任务中的评估工作进行了关键综述,着重讨论了现有工具的评估中使用的基准和度量标准,并提出了进一步研究的方向。
Jun, 2024
研究致力于自动修复代码漏洞的复杂挑战,引入了一种新的代码修改表示格式,使用了先进的大型语言模型(如 Code Llama 和 Mistral)。这些模型在 C 代码漏洞数据集上进行了微调,显着提高了自动代码修复技术的准确性和适应性。研究还对当前的评估指标(如完美预测)进行了关键评估,并强调了在真实场景中反映自动修复模型真正能力的局限性。研究强调了在代码修复任务中提高 LLMs 效果的数据集完整性和训练样本缺失测试数据集的重要性。此工作对数字安全的贡献不仅体现在提高代码安全方面的潜力上,而且推动了这些关键领域的进一步探索与研究。
Jan, 2024
我们基于大型语言模型(LLM)提出了一个名为 PaR 的框架,用于解决高级编程作业中的程序错误修复问题,并通过对新的高级学生作业数据集(Defects4DS)和另一个经过深入调查的 ITSP 数据集的评估,展示了超越现有 LMM - 和基于符号的方法的最新性能提升(分别达到了 19.94%和 15.2%的修复率提高)。
Apr, 2024
本文探讨了使用 Large Language Models 进行程序合成时,实现 Synthesize,Execute,Debug 方法的方法,包括替换或修复故障程序,以及不同基于模板和基于模型的提示生成技术,取得了比传统方法更好的表现。
Apr, 2023
基准测试作为评估大型语言模型(LLMs)的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设,即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立;相反,我们认为感兴趣的分布因具体用例而异。我们发现(1)模型在测试提示中的性能相关性是非随机的,(2)考虑到测试提示之间的相关性,可以改变主要基准测试中的模型排名,(3)导致这些相关性的解释因素包括语义相似性和常见的 LLM 失败点。
使用大型语言模型的程序修复任务中,通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集,我们的系统能够在更少的案例中准确匹配人工修复,并显著提升可用模型的性能。
我们提出了从用户角度对大型语言模型进行基准测试,旨在更好地反映实际用户需求,并且我们还构建了用户报告场景数据集以及对 10 个语言模型服务在满足用户需求方面的基准测试。