May, 2024

Kotlin ML Pack: 技术报告

TL;DR我们介绍了三个新的 Kotlin 代码数据集,KStack,KStack-clean 和 KExercises。我们描述了在这些数据上对 CodeLlama 和 DeepSeek 模型的微调结果。我们还展示了人工专家将 HumanEval 基准测试改写为 Kotlin 的版本,包括解决方案和测试。我们的结果表明,小而高质量的数据集(KStack-clean 和 KExercises)可以显着提高模型在代码生成任务上的性能,在 HumanEval 基准测试中通过率提高了最多 16 个百分点。最后,我们讨论了改进 Kotlin 语言建模的潜在未来工作,包括在学习过程中使用静态分析工具和引入更复杂、更实际的基准测试。