May, 2023

Vault:一个全面的多语言数据集,用于推进代码理解和生成

TL;DRThe Vault 是一个开源的、大规模的代码文本数据集,具备 10 种流行编程语言的 4000 万个代码文本对,经过清理和处理,可用于训练不同类型的基于代码的大型语言模型,并同时为研究者和实践者提供了数据清理方法和脚本以改善他们的数据集。