Jun, 2024

PLUM: 偏好学习加测试用例产生更好的代码语言模型

TL;DRPLUM 是一个增加了针对代码 LM 的测试用例的偏好学习框架,它通过三个阶段的实验表明,PLUM 显著提高了现有代码 LM 在代码生成任务中的性能,并与监督微调阶段相互协作产生协同效应。