Jun, 2024

SemCoder:使用全面语义训练代码语言模型

TL;DR该论文提出了一种新的策略,通过连接静态代码文本和动态执行状态,训练具有全面语义的 Code LLMs,从而填补 Code LLMs 在诸如调试和程序修复等复杂任务中对深层语义的依赖的差距。该方法通过收集 PyX,一个具有可执行样本、功能描述和执行跟踪的干净代码语料库,训练 Code LLMs 使用自然语言编写代码、表示和推理执行行为,从而开发出了仅有 67 亿参数的 SemCoder,该模型在代码生成和执行推理任务上与 GPT-3.5-turbo 表现相当。