挖掘 Hugging Face 代码库所学到的经验教训

Feb, 2024

挖掘 Hugging Face 代码库所学到的经验教训

Lessons Learned from Mining the Hugging Face Repository

Joel Castaño, Silverio Martínez-Fernández, Xavier Franch

TL;DR机器学习和人工智能领域的快速发展引出了像 Hugging Face（HF）这样的平台作为模型开发和共享的中心枢纽。本研究报告综合了两项关于 HF 的综合研究，着重关注碳排放、ML 模型的演化和维护方面。我们的目标是为将来从事 HF 生态系统内的软件库研究的研究人员提供实用指南，以提高这些研究的质量。我们深入研究了在我们的研究中使用的复制包的复杂性，突出了促进分析的关键工具和方法。此外，我们提出了一种细致的分层抽样策略，专为多样化的 HF Hub 数据集量身定制，以确保一种代表性和全面的分析方法。该报告还介绍了初步指南，从库挖掘过渡到群体研究，在 HF 上下文的 ML 模型研究中建立因果关系。这种过渡受到现有框架的启示，并进行了适应以适应 HF 模型生态系统的独特特点。我们的报告为研究人员提供了一个指导性框架，有助于负责任和可持续的 ML 进展，并促进对 ML 模型更广泛影响的深入理解。

Abstract

The rapidly evolving fields of machine learning (ML) and Artificial Intelligence have witnessed the emergence of platforms like hugging face (HF) as central hubs for model development and sharing. This experience

machine learning artificial intelligence hugging face carbon emissions ml models

发现论文，激发创造

分析 Hugging Face 上机器学习模型的演化与维护

通过对超过 380,000 个使用 Hugging Face Hub API 收集的数据进行仓库挖掘研究，旨在探索 Hugging Face 上托管的机器学习模型的社区参与、演化和维护等方面，以期为平台上未来的模型开发策略提供有价值的信息。

Nov, 2023

探究 Hugging Face 机器学习模型的碳足迹：一个代码存储库挖掘研究

本研究对 Hugging Face 仓库中 1417 个机器学习模型及相关数据集的碳足迹进行了分析，提出了提高能源报告和促进碳效率模型开发的分类建议，研究结果强调了软件测量的必要性。

May, 2023

AI 社群构建未来？对 Hugging Face Hub 上的开发活动进行定量分析

开源开发者在人工智能（AI）的政治经济中成为关键角色，开放模型开发被认为是封闭源 AI 开发的替代方案。然而，我们对开源 AI 的协作实践仍有有限的了解。本文通过对 Hugging Face（HF） Hub 上的开发活动进行三部分数量分析来填补这一空白，HF Hub 是一个流行的构建、分享和展示模型的平台。

May, 2024

Hugging Face 深度学习模型注册表中预训练模型重用的实证研究

本文是关于使用预训练模型的实践和挑战，通过对 Hugging Face 生态系统中从业者的访谈和系统化的测量，确定了模型重用的实践和决策制定过程，并提出了模型重用的有用属性和挑战，以及对深度学习生态系统自动化地测量有用属性和潜在攻击的未来方向进行了展望。

Mar, 2023

机器学习在医疗保健中的可重复性

本文通过对 100 多篇机器学习应用于人类健康领域的研究论文进行系统评估，发现相较于其他机器学习领域，该领域在数据和代码可获取性等可重复性方面表现较差，因此提出了对数据提供者、学术出版商和 ML4H 研究社区的建议，以促进可重复性研究的发展。

Jul, 2019

在 AI 中浏览数据集文档：对 Hugging Face 上数据集卡片的大规模分析

通过对 Hugging Face 平台上的 7,433 份数据集文档进行分析，本研究提供了 Hugging Face 数据集生态系统的概述和数据集文档实践的见解，得出了 5 个主要发现：（1）数据集卡完成率存在显著的异质性，并与数据集的受欢迎程度相关；（2）对数据集卡中的每个部分进行细致的研究发现，从业者似乎优先考虑数据集描述和数据集结构部分，而使用数据部分的内容比例最低；（3）通过分析每个部分中的子部分，并利用主题建模方法识别关键主题，我们发现了每个部分讨论的内容，并强调了技术和社会影响以及使用数据部分的局限性；（4）我们的研究还强调了在使用部分中提高数据集可访问性和可复现性的需要；（5）此外，我们的人工标注评估强调了全面数据集内容对于塑造个人对数据集卡整体质量看法的重要作用。总体而言，本研究通过大规模数据科学分析提供了对数据集文档的独特视角，并强调了机器学习研究中更加全面的数据集文档需求。

Jan, 2024

Hugging Face 的相关知识：系统文献综述与定性声明的定量验证

我们通过系统文献综述和定量分析验证了关于 Pre-Trained Model （PTM）的重复使用的定性研究结论，证实 PTM 具有比传统软件更高的更新速度，并且文档质量与 PTM 的受欢迎程度存在强相关性。

Jun, 2024

缓解数据集的危害需要有管理：来自于 1000 篇论文的经验教训

探讨了机器学习数据集的隐私、偏差和伦理应用等方面的顾虑，并分析了三个有争议的人脸和人识别数据集的伦理问题，最后提出了分散化的方法来减少数据集生命周期中的伦理问题。

Aug, 2021

HuggingFace 社区中深度学习模型重用的挑战、利益与趋势

模型复用方面，我们通过一项综合的混合方法实证研究，通过关注讨论论坛和 HuggingFace 模型中心，提出了一种挑战和益处的分类法，并进行了定量研究以追踪模型类型趋势和模型文档的演变。

Jan, 2024

利用 Hugging Face 转换器预测社交网络中的心理健康障碍

使用社交媒体和预训练语言模型，探索如何利用用户生成的数据来预测心理障碍症状，并发现社交媒体数据是精神健康筛查的良好来源，预训练模型可以有效地自动化这一重要任务。

Jun, 2023