DS-1000:数据科学代码生成的自然可靠基准
介绍了一个解决数据科学代码生成任务执行评估缺乏的问题的方法 ExeDS,包括一个包含 534 个问题的数据集,并对表现高的 5 个最先进的代码生成模型进行了执行结果评估,发现表面形式得分高的模型不一定表现良好,表达的是执行度量标准可以更好地捕捉模型代码生成错误。
Nov, 2022
用 CodeBenchGen 框架创建可扩展的基于执行的基准测试,利用大型语言模型将任意代码转换为评估示例,并通过 Exec-CSN 数据集展示了人类和模型在代码生成系统上的性能分析。
Mar, 2024
本论文研究了一个由序列到序列变换器驱动的数据科学助手的可行性,通过使用所有公开可用的 Jupyter Notebook GitHub 存储库对一个名为 JuPyT5 的新模型进行训练。新模型根据 306 个教学笔记本上的 1119 个 Python 实现的数学和数据科学问题进行评估。实验发现 JuPyT5 可以解决 77.5%的数据科学问题,同时对 DSP 进行了比较分析。
Jan, 2022
大型语言模型在生产性活动的代码生成方面表现出强大的能力。然而,当前的代码合成基准主要面向算法和数据科学的入门任务,在真实世界的编码中对具有挑战性的要求不够满足。为了填补这一差距,我们提出了 NaturalCodeBench(NCB)作为一个具有挑战性的代码基准,旨在模拟真实编码任务的复杂性和多样性。NCB 由来自在线编码服务的自然用户查询中精心挑选的 402 个高质量问题组成,涵盖了 6 个不同领域。我们还引入了半自动化流程来提高测试用例构建的效率,相比手动解决方案,效率提高了 4 倍以上。我们对 39 个大型语言模型进行了系统实验,发现在 NCB 上,具有接近 HumanEval 评分的模型之间的性能差距仍然可能很大,表明对实际代码合成场景的关注不足或在 HumanEval 上过度优化。另一方面,即使是表现最佳的 GPT-4 在 NCB 上仍然远未令人满意。评估工具和开发集可在此 URL 获取。
May, 2024
在本文中,我们提出了一种新方法 CodeT,利用预先训练的语言模型自动生成代码示例的测试用例,从而减少人工成本并增加测试场景的覆盖范围,最终实现基于生成的测试用例的代码解决方案选择。
Jul, 2022
本文提出了新的基准测试,包括 MBXP,Multilingual HumanEval 和 MathQA-X,以测试多语言环境下代码生成模型的性能,并发现了多语言模型的优势,以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时,作者还利用其代码生成模型在多种语言上实现了大规模引导过程,产生了其他与代码相关的评估任务中使用的合成规范解决方案。
Oct, 2022
使用大规模生成模型和较小的编码器模型,语言模型可以帮助软件开发人员提高生产力,包括代码生成、代码补全、代码搜索等任务,并且可以通过新的基准数据集 GenCodeSearchNet (GeCS) 来评估语言模型对编程语言理解的泛化能力。
Nov, 2023
本研究通过引入 VersiCode 数据集和两个专门的评估任务 (VSCC 和 VACE),对大型语言模型在生成特定库版本可验证代码方面的能力进行综合实验和性能评估,揭示了即使是最先进的大型语言模型在生成版本正确代码方面也存在困难,为进一步研究这一重要领域的能力和限制提供新的视角和资源。
Jun, 2024
数据驱动科学是一种新兴的范例,其中科学发现取决于针对具体学科的丰富数据集执行计算 AI 模型。通过现代机器学习框架,任何人都可以开发和执行计算模型,揭示隐藏在数据中的概念,从而可能支持科学应用。然而,在实际应用中,收集并计算每个可以运行的计算模型的性能代价昂贵。由于使用代表性数据集来推断性能的基准测试方法具有局限性,每个数据集都具有独特的特征,这需要引入数据集配置文件来作为模型选择过程的一部分,以选择最佳模型进行优化。
Aug, 2022