Kotlin ML Pack: 技术报告

May, 2024

Kotlin ML Pack: Technical Report

Sergey Titov, Mikhail Evtikhiev, Anton Shapkin, Oleg Smirnov, Sergei Boytsov...

TL;DR我们介绍了三个新的 Kotlin 代码数据集，KStack，KStack-clean 和 KExercises。我们描述了在这些数据上对 CodeLlama 和 DeepSeek 模型的微调结果。我们还展示了人工专家将 HumanEval 基准测试改写为 Kotlin 的版本，包括解决方案和测试。我们的结果表明，小而高质量的数据集（KStack-clean 和 KExercises）可以显着提高模型在代码生成任务上的性能，在 HumanEval 基准测试中通过率提高了最多 16 个百分点。最后，我们讨论了改进 Kotlin 语言建模的潜在未来工作，包括在学习过程中使用静态分析工具和引入更复杂、更实际的基准测试。

Abstract

In this technical report, we present three novel datasets of kotlin code: KStack, KStack-clean, and KExercises. We also describe the results of fine-tuning →

kotlin code datasets codellama deepseek models language modeling

发现论文，激发创造

Stack: 3 TB 开源许可的源代码

本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack，以及如何构建、管理和使用该数据集来训练大型语言模型，通过在 Python 子集上训练 350M 参数解码器，在文本到代码的基准测试上取得了有前途的结果。

Nov, 2022

探究语言模型在函数式编程语言中完成代码的性能：一个 Haskell 案例研究

评估了两个语言模型（CodeGPT 和 UniXcoder）在函数式编程语言 Haskell 上的性能表现，发现在函数式编程语言上代码补全是可行的，但存在空预测、额外注释和不完整 / 错误预测的问题，因此需要更多高质量的 Haskell 数据集。

Mar, 2024

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

Qiskit HumanEval: 量子代码生成模型的评估基准

通过使用 Quantum Software Development Kits (SDKs) 进行开发，本研究引入并使用了 Qiskit HumanEval 数据集，这是一个手工精选的任务集合，旨在评估 Large Language Models (LLMs) 在使用 Qiskit（一种量子 SDK）生成量子代码方面的能力，并在可执行的量子代码生成方面建立了新的基准。

Jun, 2024

挑战前人未达之地：暴露代码生成评估中的偏见和不足

本研究对 Python 代码生成的两个广泛应用的基准测试 ——HumanEval 和 MBPP 进行了大规模人工评估，重点关注它们的多样性与难度。研究结果发现，现有基准测试对少数编程概念存在显著偏向，而对大多数概念几乎没有或没有代表性的呈现。此外，研究还发现易于完成的编程问题所占比例极高，可能导致对模型在代码生成任务上性能的过高评价。

Jan, 2024

DevEval：与现实世界源代码仓库对齐的手动注释代码生成基准

通过新的基准测试 DevEval，我们评估了 8 种流行的大型语言模型在真实代码库中的编码能力，并发现这些模型的编码能力在真实世界的代码库中存在缺陷。

May, 2024

NaturalCodeBench: 检视 HumanEval 和自然用户提示对编码性能不匹配的问题

大型语言模型在生产性活动的代码生成方面表现出强大的能力。然而，当前的代码合成基准主要面向算法和数据科学的入门任务，在真实世界的编码中对具有挑战性的要求不够满足。为了填补这一差距，我们提出了 NaturalCodeBench（NCB）作为一个具有挑战性的代码基准，旨在模拟真实编码任务的复杂性和多样性。NCB 由来自在线编码服务的自然用户查询中精心挑选的 402 个高质量问题组成，涵盖了 6 个不同领域。我们还引入了半自动化流程来提高测试用例构建的效率，相比手动解决方案，效率提高了 4 倍以上。我们对 39 个大型语言模型进行了系统实验，发现在 NCB 上，具有接近 HumanEval 评分的模型之间的性能差距仍然可能很大，表明对实际代码合成场景的关注不足或在 HumanEval 上过度优化。另一方面，即使是表现最佳的 GPT-4 在 NCB 上仍然远未令人满意。评估工具和开发集可在此 URL 获取。

May, 2024

通过严格评估大型语言模型来生成代码，确定 ChatGPT 生成的代码是否真正正确

使用 EvalPlus 框架对大型语言模型进行代码综合基准测试，通过自动生成测试输入来扩充现有基准测试集，发现并降低了 LLM 合成代码的错误率，揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。

May, 2023

CodeBenchGen: 创建可扩展的基于执行的代码生成基准

用 CodeBenchGen 框架创建可扩展的基于执行的基准测试，利用大型语言模型将任意代码转换为评估示例，并通过 Exec-CSN 数据集展示了人类和模型在代码生成系统上的性能分析。

Mar, 2024

RealHumanEval: 评估大型语言模型对程序员的支持能力

通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好与实际表现并无关联，这促使我们需要更好、以人为中心的评估指标。同时，我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。

Apr, 2024