May, 2023

StarCoder: 愿源码与你同在!

TL;DR这篇论文介绍 BigCode 社区的开源科学协作计划,具体讨论了基于 GitHub 数据和 Fine-tuning 方法所训练的大规模语言模型 StarCoder 和 StarCoderBase,证明加强的 PII 去识别流程和追溯工具等重要措施可以更安全地发布模型,并公开发布符合开源 AI 模型许可证商业版本的 StarCoder 模型。