Aug, 2023

关于编程语言模型训练和评估的语言选择影响

TL;DR在这项研究中,我们通过使用基于 CodeBERT 的模型分析编程语言的表示来评估编程语言的相似性,发现 C++、Python 和 Java 等语言的标记表示彼此接近,而 Mathematica 和 R 等语言的标记表示存在明显的差异。我们的发现表明,这一现象可能在处理多种语言时导致性能挑战,因此我们建议在训练和评估未来的模型时选择多样化的编程语言。