分析 Hugging Face 上机器学习模型的演化与维护
机器学习和人工智能领域的快速发展引出了像 Hugging Face(HF)这样的平台作为模型开发和共享的中心枢纽。本研究报告综合了两项关于 HF 的综合研究,着重关注碳排放、ML 模型的演化和维护方面。我们的目标是为将来从事 HF 生态系统内的软件库研究的研究人员提供实用指南,以提高这些研究的质量。我们深入研究了在我们的研究中使用的复制包的复杂性,突出了促进分析的关键工具和方法。此外,我们提出了一种细致的分层抽样策略,专为多样化的 HF Hub 数据集量身定制,以确保一种代表性和全面的分析方法。该报告还介绍了初步指南,从库挖掘过渡到群体研究,在 HF 上下文的 ML 模型研究中建立因果关系。这种过渡受到现有框架的启示,并进行了适应以适应 HF 模型生态系统的独特特点。我们的报告为研究人员提供了一个指导性框架,有助于负责任和可持续的 ML 进展,并促进对 ML 模型更广泛影响的深入理解。
Feb, 2024
本研究对 Hugging Face 仓库中 1417 个机器学习模型及相关数据集的碳足迹进行了分析,提出了提高能源报告和促进碳效率模型开发的分类建议,研究结果强调了软件测量的必要性。
May, 2023
开源开发者在人工智能(AI)的政治经济中成为关键角色,开放模型开发被认为是封闭源 AI 开发的替代方案。然而,我们对开源 AI 的协作实践仍有有限的了解。本文通过对 Hugging Face(HF) Hub 上的开发活动进行三部分数量分析来填补这一空白,HF Hub 是一个流行的构建、分享和展示模型的平台。
May, 2024
模型复用方面,我们通过一项综合的混合方法实证研究,通过关注讨论论坛和 HuggingFace 模型中心,提出了一种挑战和益处的分类法,并进行了定量研究以追踪模型类型趋势和模型文档的演变。
Jan, 2024
本文是关于使用预训练模型的实践和挑战,通过对 Hugging Face 生态系统中从业者的访谈和系统化的测量,确定了模型重用的实践和决策制定过程,并提出了模型重用的有用属性和挑战,以及对深度学习生态系统自动化地测量有用属性和潜在攻击的未来方向进行了展望。
Mar, 2023
利用 Hugging Face LLMs 的系统性命名法,通过使用 n-grams 和词频 - 逆文档频率进行层次聚类,我们成功地识别出一个个 LLMs 家族,并将其准确地聚类成有意义的子群。我们还提供了一个公共网络应用程序,用于浏览和探索我们的 LLMs 地图 Constellation。Constellation 可以快速生成各种可视化,包括树状图、图表、词云和散点图。Constellation 可在以下链接中访问:this https URL。
Jul, 2023
通过对 Hugging Face 平台上的 7,433 份数据集文档进行分析,本研究提供了 Hugging Face 数据集生态系统的概述和数据集文档实践的见解,得出了 5 个主要发现:(1)数据集卡完成率存在显著的异质性,并与数据集的受欢迎程度相关;(2)对数据集卡中的每个部分进行细致的研究发现,从业者似乎优先考虑数据集描述和数据集结构部分,而使用数据部分的内容比例最低;(3)通过分析每个部分中的子部分,并利用主题建模方法识别关键主题,我们发现了每个部分讨论的内容,并强调了技术和社会影响以及使用数据部分的局限性;(4)我们的研究还强调了在使用部分中提高数据集可访问性和可复现性的需要;(5)此外,我们的人工标注评估强调了全面数据集内容对于塑造个人对数据集卡整体质量看法的重要作用。总体而言,本研究通过大规模数据科学分析提供了对数据集文档的独特视角,并强调了机器学习研究中更加全面的数据集文档需求。
Jan, 2024
本文研究了 1346 个机器学习研究代码库及其 67,369 个 fork 的贡献情况,发现只有 9% 的 fork 对代码库进行了修改,而大部分未被贡献回来的修改主要涉及领域特定的个性化定制和本地实验,并且涉及到了文档变更、功能变更和 Bug 修复等方面,说明这种情况带来的机会成本不容忽视。
Mar, 2022
使用社交媒体和预训练语言模型,探索如何利用用户生成的数据来预测心理障碍症状,并发现社交媒体数据是精神健康筛查的良好来源,预训练模型可以有效地自动化这一重要任务。
Jun, 2023
本研究使用统计分析和混合卡片排序评估了 Hugging Face 模型存储库中模型卡片和数据集卡片的记录实践,发现只有 39.62% 的模型和 28.48% 的数据集有文档记录,同时还观察到 ML 模型和数据集的伦理和透明度相关文档存在不一致性。
Dec, 2023