本文提出了新的基准测试,包括 MBXP,Multilingual HumanEval 和 MathQA-X,以测试多语言环境下代码生成模型的性能,并发现了多语言模型的优势,以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时,作者还利用其代码生成模型在多种语言上实现了大规模引导过程,产生了其他与代码相关的评估任务中使用的合成规范解决方案。
Oct, 2022
本文使用 CoNaLa 数据集,利用自注意力变换器结构解决了从自然语言描述中生成代码片段的问题,并表明其表现优于循环注意力编码器解码器,使用修改后的反向翻译和周期一致损失以端到端的方式训练模型,实现了 16.99 的 BLEU 分数,超过了 CoNaLa 挑战的先前基线。
Feb, 2022
本研究使用神经机器翻译模型,创建了一个包括四种自然语言和四种编程语言的多语言代码搜索数据集,并使用 Transformer 模型预训练和微调,然后在多个代码搜索测试集上进行评估。结果显示,预训练模型在自然语言和编程语言数据上表现最佳。通过应用反向翻译数据过滤,研究表明翻译质量在一定程度上影响模型的性能,但数据规模更为重要。
Jun, 2023
使用人工评估的大规模多语言代码生成基准,填补了在多语言代码生成领域中评估自然语言泛化能力的空白。
Feb, 2024
为了推动代码翻译研究并满足实际应用的多样需求,构建了支持最多语言的大规模综合基准 CodeTransOcean,其中包括了多种新颖的多语种数据集,以及用于评估编译性能的新颖交叉框架数据集 DLTrans。还展示了多语种建模方法在提高低资源和高资源语言对的翻译质量和训练效率方面的巨大潜力,提出了一个用于程序级代码翻译的新型评估指标 Debugging Success Rate@K,并对未来研究的代码翻译挑战进行了分析。
Oct, 2023
使用大语言模型(LLMs),将代码更改从一种编程语言翻译成另一种编程语言,通过设计和实现名为 Codeditor 的第一个 LLM,我们发现它在所有常用的自动指标上都大幅超越了现有的方法,并且与现有的生成模型配合使用可以获得更好的性能。
Jul, 2023
本文介绍 XLCoST 横跨 8 种语言的跨语言代码片段数据集,支持 10 项跨语言代码任务,并提供了几种基准模型的性能。该数据集是目前规模和语种最大的源代码平行数据集,可以帮助跨语言代码智能的研究和方法开发以及验证。
Jun, 2022
本研究构建了一个考核数据科学笔记本中 Pandas 数据分析框架的代码生成问题集 ARCADE,并开发了一个 Python 计算笔记本的代码语言模型 PaChiNCo,该模型可以通过少量提示生成更好的代码,提高了模型预测的多样性和可解释性。
Dec, 2022
这篇论文介绍了一种名为 CoCo-CroLa 的技术,用于评估任何生成式文本到图像系统在有形名词方面提供多语言的程度,可以比较源语言和目标语言中为一系列有形名词生成的图像的数量,从而估计模型对目标语言的适用性,并识别模型特定的弱点、错误关联和偏见。
本文介绍了两个用于对挪威语言模型进行语法性评估的数据集(NoCoLA_class 和 NoCoLA_zero),并展示了它们在不同类型的语言模型上的使用方法及对现有挪威语言模型的比较研究。