利用神经机器翻译构建多语言代码搜索数据集

ACLJun, 2023

利用神经机器翻译构建多语言代码搜索数据集

Constructing Multilingual Code Search Dataset Using Neural Machine Translation

Ryo Sekizawa, Nan Duan, Shuai Lu, Hitomi Yanaka

TL;DR本研究使用神经机器翻译模型，创建了一个包括四种自然语言和四种编程语言的多语言代码搜索数据集，并使用 Transformer 模型预训练和微调，然后在多个代码搜索测试集上进行评估。结果显示，预训练模型在自然语言和编程语言数据上表现最佳。通过应用反向翻译数据过滤，研究表明翻译质量在一定程度上影响模型的性能，但数据规模更为重要。

Abstract

code search is a task to find programming codes that semantically match the given natural language queries. Even though some of the existing datasets for this task are multilingual on the programming language side, their query data are only in English. In this research, we create a mul

code search multilingual dataset neural machine translation transformer-based models back-translation data filtering

发现论文，激发创造

构建高质量的训练数据集对于神经代码搜索的重要性

本文提出一个数据清洗框架，包含基于规则的句法过滤器和基于模型的语义过滤器，将其应用于神经代码搜索数据集，以提高数据集质量和模型性能。实验证明，使用我们的框架训练神经代码搜索模型可平均提高 19.2％的 MRR 和 21.3％的 Answer@1。

Feb, 2022

CodeTransOcean：一项用于代码翻译的全面多语言基准

为了推动代码翻译研究并满足实际应用的多样需求，构建了支持最多语言的大规模综合基准 CodeTransOcean，其中包括了多种新颖的多语种数据集，以及用于评估编译性能的新颖交叉框架数据集 DLTrans。还展示了多语种建模方法在提高低资源和高资源语言对的翻译质量和训练效率方面的巨大潜力，提出了一个用于程序级代码翻译的新型评估指标 Debugging Success Rate@K，并对未来研究的代码翻译挑战进行了分析。

Oct, 2023

编码 - 解码架构用于代码混合搜索查询翻译的研究

本文提出了一种基于转换器的方法，用于对搜索查询进行代码混合翻译，以使用户能够使用这些查询进行搜索，并通过预训练的编码器 - 解码器模型的有效性来证明该方法。此外，为了减少模型的延迟，我们使用了知识蒸馏和权重量化。经过实验评估和 A/B 测试，证明了所提出方法的有效性。现在该模型已应用于 Flipkart 应用程序和网站，处理数百万查询。

Aug, 2022

语义代码搜索的多角度架构

该研究提出了一种多角度跨语言神经框架用于代码 - 文本匹配，具备全球和本地相似性，结果比以往单映射空间的方法更好地完成了这一任务。

May, 2020

神经代码搜索评估数据集

本文介绍了一种自然语言代码搜索模型的性能评估方法，并提供了包含查询和代码碎片对的评估数据集，以作为未来工作的标准基准。此外，本文还提供了最近工作中两种代码搜索模型的研究结果。

Aug, 2019

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

神经机器翻译中的文本复杂度控制

该研究介绍了一项机器翻译任务，其输出面向不同水平的目标语言熟练度的受众。他们收集了高质量的新闻文章数据集，提出了一种跨语言文章段落对齐方法，训练出多任务序列到序列模型，实现将西班牙语翻译成英语并针对英语简化阅读难度，结果显示这些多任务模型优于传统的翻译和简化文本管线式方法。

Nov, 2019

减少先验知识、增加单语数据的自然语言代码生成

通过利用较大的单语语料库，本研究调查了一个基于通用 transformer 的 seq2seq 模型是否可以在最小限度的代码生成特定归纳偏差下实现与其他语言模型相当的性能，结果显示其在 Django 上实现了 81.03％的完全匹配准确性和 32.57 的 CoNaLa BLEU 分数，均达到了我们所知道的最好水平，这为在实践中构建准确的语义解析器提供了可能更容易的途径。

Jan, 2021

基于大型语言模型的多语言代码协同演化

使用大语言模型（LLMs），将代码更改从一种编程语言翻译成另一种编程语言，通过设计和实现名为 Codeditor 的第一个 LLM，我们发现它在所有常用的自动指标上都大幅超越了现有的方法，并且与现有的生成模型配合使用可以获得更好的性能。

Jul, 2023