Nov, 2023

代码语言模型综述

TL;DR系统综述了代码处理与语言模型的最新进展,包括 50 + 种模型,30 + 项评估任务和 500 多个相关研究。分析了通用语言模型(如 GPT 系列)和专门针对代码进行预训练的模型之间的关系和区别,并强调了代码建模从统计模型和 RNN 到预训练 Transformer 和 LLM 的历史转变。讨论了代码特定的特征及其在训练代码语言模型中的应用,并确定了该领域的主要挑战和潜在未来方向。