ACLJun, 2023

利用神经机器翻译构建多语言代码搜索数据集

TL;DR本研究使用神经机器翻译模型,创建了一个包括四种自然语言和四种编程语言的多语言代码搜索数据集,并使用 Transformer 模型预训练和微调,然后在多个代码搜索测试集上进行评估。结果显示,预训练模型在自然语言和编程语言数据上表现最佳。通过应用反向翻译数据过滤,研究表明翻译质量在一定程度上影响模型的性能,但数据规模更为重要。