EMNLPOct, 2023

个性化蒸馏:为代码生成赋能开源 LLMs 的自适应学习

TL;DR通过个性化蒸馏的方式,我们在代码生成方面取得了显著的进展,仅使用 1/3 的数据就能提升性能,并且通过 2.5-3K 的个性化示例,带来 4-6 美元的数据收集成本,使 CodeGen-mono-16B 模型 pass@1 达到 36.4%,StarCoder 模型 pass@1 达到 45.8%。