测量编程语言分布的影响

Feb, 2023

Measuring The Impact Of Programming Language Distribution

Gabriel Orlanski, Kefan Xiao, Xavier Garcia, Jeffrey Hui, Joshua Howland...

TL;DR为了解决现有编程语言评估标准对一些流行编程语言（如 Go 或 Rust）的限制，该论文提出了一个基于执行的语言无关基准评估框架 BabelCode。同时，该论文还提出了一个新的代码翻译数据集 TP3，用于研究通过平衡 14 种语言在训练数据集中的分布来提高大规模语言模型在低资源语言任务中的性能。训练模型在平衡语料库上平均后，该模型在所有任务和语言上的 $pass@k$ 比基线模型高 12.34％。该策略在低资源语言上的 $pass@k$ 提高了 66.48％，而仅以 12.94％的代价降低了高资源语言的 $pass@k$，具有实际应用意义。

Abstract

Current benchmarks for evaluating neural code models focus on only a small subset of programming languages, excluding many popular languages such as Go or Rust. To ameliorate this issue, we present the babelcode framewo

neural code models babelcode framework translating python programming puzzles training dataset low-resource languages

发现论文，激发创造

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

关于编程语言模型训练和评估的语言选择影响

在这项研究中，我们通过使用基于 CodeBERT 的模型分析编程语言的表示来评估编程语言的相似性，发现 C++、Python 和 Java 等语言的标记表示彼此接近，而 Mathematica 和 R 等语言的标记表示存在明显的差异。我们的发现表明，这一现象可能在处理多种语言时导致性能挑战，因此我们建议在训练和评估未来的模型时选择多样化的编程语言。

Aug, 2023

预训练语言模型在低资源编程语言中的可转移性

研究表明，在多语言数据集中使用语料库来微调预训练的多语言自然语言处理模型 (PLMs) 能够获得更高的性能，但是没有对单语言 PLMs 进行分析。此外，不同的编程语言之间的代码通常不能互换，我们调查了单语言和多语言 PLMs 对不同编程语言的影响，分析了超过一百个预训练模型和微调模型，结果表明，多语言 PLMs 具有更低的性能 - 时间比 (在微调期间的 BLEU，METEOR 或 MRR 分数)，我们提出的目标编程语言选择策略能够在减少微调时间的同时在代码摘要和代码搜索任务中实现更高的性能，并且我们的策略在不同代码长度上表现良好。

Apr, 2022

探索输出格式对代码翻译的大型语言模型评估的影响

代码翻译的大语言模型综合评估以及通过策略组合和正则表达式提取源代码的研究结果揭示了代码翻译的实际性能和未来研究方向。

Mar, 2024

高资源编程语言到低资源编程语言的知识转移：面向代码语言模型的研究

通过使用半合成数据的有效方法，本文提出了一种提高 Code LLMs 在低资源语言上性能的方法，应用于 Racket、OCaml 和 Lua，通过在 Stack 数据集上训练并使用 MultiPL-T 生成的数据，实现了最先进的性能。

Aug, 2023

CodeTransOcean：一项用于代码翻译的全面多语言基准

为了推动代码翻译研究并满足实际应用的多样需求，构建了支持最多语言的大规模综合基准 CodeTransOcean，其中包括了多种新颖的多语种数据集，以及用于评估编译性能的新颖交叉框架数据集 DLTrans。还展示了多语种建模方法在提高低资源和高资源语言对的翻译质量和训练效率方面的巨大潜力，提出了一个用于程序级代码翻译的新型评估指标 Debugging Success Rate@K，并对未来研究的代码翻译挑战进行了分析。

Oct, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

xCodeEval：一项用于代码理解、生成、翻译和检索的大规模多语言多任务基准测试

人工智能正在开发出可以用于程序编写的 AI 系统，生成代码的自然语言描述，语言模型在生成代码的过程中表现出了良好的性能，但它们的评估通常只在少数语言和部分层次上进行，还需要更好的培训数据。

Mar, 2023

Hints-In-Browser：针对编程反馈生成的语言模型基准测试

通过在浏览器中进行推理的新范式，基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示，本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准，展示了与浏览器推理引擎兼容的小型模型的反馈质量提升，并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性，同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。

Jun, 2024

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022