Sep, 2024

您的代码大模型表现如何?通过高质量数据赋能代码指令调优

TL;DR本研究解决了提高代码指令调优数据质量的问题,尤其是识别哪些数据集真正符合高质量标准。我们提出了一种高效的数据修剪策略,并基于此开发了XCoder模型,展示了其在较少训练数据下实现了新的最先进性能。该研究为未来代码大模型的构建提供了新的洞见。