Feb, 2024

挖掘 Hugging Face 代码库所学到的经验教训

TL;DR机器学习和人工智能领域的快速发展引出了像 Hugging Face(HF)这样的平台作为模型开发和共享的中心枢纽。本研究报告综合了两项关于 HF 的综合研究,着重关注碳排放、ML 模型的演化和维护方面。我们的目标是为将来从事 HF 生态系统内的软件库研究的研究人员提供实用指南,以提高这些研究的质量。我们深入研究了在我们的研究中使用的复制包的复杂性,突出了促进分析的关键工具和方法。此外,我们提出了一种细致的分层抽样策略,专为多样化的 HF Hub 数据集量身定制,以确保一种代表性和全面的分析方法。该报告还介绍了初步指南,从库挖掘过渡到群体研究,在 HF 上下文的 ML 模型研究中建立因果关系。这种过渡受到现有框架的启示,并进行了适应以适应 HF 模型生态系统的独特特点。我们的报告为研究人员提供了一个指导性框架,有助于负责任和可持续的 ML 进展,并促进对 ML 模型更广泛影响的深入理解。