Feb, 2023

测量编程语言分布的影响

TL;DR为了解决现有编程语言评估标准对一些流行编程语言(如 Go 或 Rust)的限制,该论文提出了一个基于执行的语言无关基准评估框架 BabelCode。同时,该论文还提出了一个新的代码翻译数据集 TP3,用于研究通过平衡 14 种语言在训练数据集中的分布来提高大规模语言模型在低资源语言任务中的性能。训练模型在平衡语料库上平均后,该模型在所有任务和语言上的 $pass@k$ 比基线模型高 12.34%。该策略在低资源语言上的 $pass@k$ 提高了 66.48%,而仅以 12.94%的代价降低了高资源语言的 $pass@k$,具有实际应用意义。