Dec, 2023

WaveCoder: 广泛且多功能的增强指令调整与精细数据生成

TL;DR通过将指令数据分类到 4 个与代码相关的任务,并提出了基于 LLM 的生成 - 判别器数据处理框架,从开源代码生成多样且高质量的指令数据,进而介绍了 CodeOcean,这是一个包含 20,000 个指令实例的数据集,用于增强指令调优的效果和优化精调模型的泛化能力,随后提出了 WaveCoder,一种针对增强指令调优的 Code LLM 的精调模型,通过实验验证 WaveCoder 模型在不同代码相关任务上具有较好的泛化能力,并且在以往的代码生成任务中表现出高效性。该论文对指令数据生成和精调模型的领域做出了重要贡献,为增强代码相关任务的性能提供了新的见解和工具。