EMNLPJun, 2024

代码优化:自动生成的正确性和效率偏好数据

TL;DRCode-Optimise 是一个框架,通过自动生成的偏好数据将正确性(通过,失败)和运行时间(快,慢)作为学习信号引入,实现了显著提高 in-domain 数据的 pass@k 的同时将竞争性基准运行时间额外降低 6%,并且对 out-of-domain 数据降低了 3%,提供了更快更便宜的推理,并在 MBPP 和 HumanEval 上将生成解决方案的平均长度分别减少了 48%和 23%。