MCoNaLa: 多语言编码生成的基准测试

Mar, 2022

MCoNaLa: 多语言编码生成的基准测试

MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages

Zhiruo Wang, Grace Cuenca, Shuyan Zhou, Frank F. Xu, Graham Neubig

TL;DR本论文提出了多语言数据集 MCoNaLa，评估了基于自然语言指令的代码生成在英语以外的三种语言（西班牙语、日语和俄语）上的表现和挑战。

Abstract

While there has been a recent burgeoning of applications at the intersection of natural and programming languages, such as code generation and code summarization, these applications are usually English-centric. T

multilingual dataset code generation natural language commands programming languages technology development

发现论文，激发创造

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

使用 Transformer 将自然语言转化为代码

本文使用 CoNaLa 数据集，利用自注意力变换器结构解决了从自然语言描述中生成代码片段的问题，并表明其表现优于循环注意力编码器解码器，使用修改后的反向翻译和周期一致损失以端到端的方式训练模型，实现了 16.99 的 BLEU 分数，超过了 CoNaLa 挑战的先前基线。

Feb, 2022

利用神经机器翻译构建多语言代码搜索数据集

本研究使用神经机器翻译模型，创建了一个包括四种自然语言和四种编程语言的多语言代码搜索数据集，并使用 Transformer 模型预训练和微调，然后在多个代码搜索测试集上进行评估。结果显示，预训练模型在自然语言和编程语言数据上表现最佳。通过应用反向翻译数据过滤，研究表明翻译质量在一定程度上影响模型的性能，但数据规模更为重要。

Jun, 2023

HumanEval-XL：一种面向跨语言自然语言通用性的多语言代码生成评估基准

使用人工评估的大规模多语言代码生成基准，填补了在多语言代码生成领域中评估自然语言泛化能力的空白。

Feb, 2024

CodeTransOcean：一项用于代码翻译的全面多语言基准

为了推动代码翻译研究并满足实际应用的多样需求，构建了支持最多语言的大规模综合基准 CodeTransOcean，其中包括了多种新颖的多语种数据集，以及用于评估编译性能的新颖交叉框架数据集 DLTrans。还展示了多语种建模方法在提高低资源和高资源语言对的翻译质量和训练效率方面的巨大潜力，提出了一个用于程序级代码翻译的新型评估指标 Debugging Success Rate@K，并对未来研究的代码翻译挑战进行了分析。

Oct, 2023

基于大型语言模型的多语言代码协同演化

使用大语言模型（LLMs），将代码更改从一种编程语言翻译成另一种编程语言，通过设计和实现名为 Codeditor 的第一个 LLM，我们发现它在所有常用的自动指标上都大幅超越了现有的方法，并且与现有的生成模型配合使用可以获得更好的性能。

Jul, 2023

XLCoST：面向跨语言代码智能的基准数据集

本文介绍 XLCoST 横跨 8 种语言的跨语言代码片段数据集，支持 10 项跨语言代码任务，并提供了几种基准模型的性能。该数据集是目前规模和语种最大的源代码平行数据集，可以帮助跨语言代码智能的研究和方法开发以及验证。

Jun, 2022

交互式数据科学笔记本中的自然语言代码生成

本研究构建了一个考核数据科学笔记本中 Pandas 数据分析框架的代码生成问题集 ARCADE，并开发了一个 Python 计算笔记本的代码语言模型 PaChiNCo，该模型可以通过少量提示生成更好的代码，提高了模型预测的多样性和可解释性。

Dec, 2022

文本到图像模型的多语言概念覆盖

这篇论文介绍了一种名为 CoCo-CroLa 的技术，用于评估任何生成式文本到图像系统在有形名词方面提供多语言的程度，可以比较源语言和目标语言中为一系列有形名词生成的图像的数量，从而估计模型对目标语言的适用性，并识别模型特定的弱点、错误关联和偏见。

Jun, 2023

NoCoLA: 挪威语言可接受性语料库

本文介绍了两个用于对挪威语言模型进行语法性评估的数据集（NoCoLA_class 和 NoCoLA_zero），并展示了它们在不同类型的语言模型上的使用方法及对现有挪威语言模型的比较研究。

Jun, 2023