BriefGPT.xyz
大模型
Ask
alpha
关键词
code-focused llms
搜索结果 - 2
代码需要注释:用注释增强代码 LLMs
我们研究了大型语言模型的编程技能对其性能的影响,并引入了一种新的数据增强方法和筛选策略来提高预训练数据在代码相关的语言模型性能上的表现。实验证明,使用增强数据训练的模型在两个广泛使用的编程技能评估上的表现优于生成评论的模型和没有使用增强数据
→
PDF
4 months ago
Vault:一个全面的多语言数据集,用于推进代码理解和生成
The Vault 是一个开源的、大规模的代码文本数据集,具备 10 种流行编程语言的 4000 万个代码文本对,经过清理和处理,可用于训练不同类型的基于代码的大型语言模型,并同时为研究者和实践者提供了数据清理方法和脚本以改善他们的数据集。
PDF
a year ago
Prev
Next