Feb, 2024

PeaTMOSS: 开源软件中预训练模型的数据集和初步分析

TL;DR这篇论文介绍了 PeaTMOSS 数据集,它包含 281,638 个预训练模型的元数据和详细快照,以及 28,575 个使用这些模型的 GitHub 开源软件仓库。此外,该数据集还包括 15,129 个 GitHub 仓库到 2,530 个预训练模型的映射。通过对数据集的分析,揭示了预训练模型供应链的摘要统计、模型包文档的常见缺陷和软件许可证不一致性等问题,为未来的研究提供了丰富的机会。