Jan, 2025

堆栈中的裂缝:大型语言模型预训练数据集中的隐患和许可风险

TL;DR本研究解决了大型语言模型(LLM)在代码生成中可能引入的漏洞和许可风险,强调了高质量合规数据集的重要性。我们提出了一种自动化代码自审核技术,该技术利用开源软件项目的完整版本历史,提高训练数据的质量。研究发现,数据集中17%的代码版本为更新版本,其中17%为漏洞修复,这表明改进数据策划能够增强AI工具输出的可靠性。