模型 DNA 的模型来源
该论文旨在提供一种专为仪表板及其可视化和数据组件设计的溯源表示模型,以提供一套完整的基本溯源元数据,使用户能够评估仪表板上呈现的信息的质量、一致性和可靠性,从而在特定仪表板开发的上下文中实现清晰而准确的理解,最终促进更好的决策制定。
Aug, 2023
本文提出了一种基于统计显著性的差异性审计框架(DPDA),用于审计数据纪录来源,使审计员能够在不需要训练阴影模型的情况下,区分训练数据和非训练数据。此外,该文还提出了两种有效的审计函数实现,并在现实世界的数据集上进行了评估,证明了该技术的有效性。
Sep, 2022
本文实现了一个称为 MGit 的模型版本控制与管理系统,通过 MGit 可以更方便地存储、测试、更新和协作于模型派生版之间,并通过血统图记录版本信息和数据来源,以及提供测试、更新和协作功能的抽象。
Jul, 2023
我们在语言模型的训练中发现了数据透明性和道德风险的问题,因此我们进行了一项多学科工作,对 1800 多个文本数据集进行了系统审计和追踪。我们发展了工具和标准,以跟踪这些数据集的来源、创作者、许可条件、属性和使用情况。我们的分析突出了商业开放数据集与封闭数据集在构成和重点方面的差异,封闭数据集垄断了重要的类别。此外,我们的研究还发现了广泛使用的数据集托管网站上许可证的错误和遗漏。为了促进数据集的透明性和负责任使用,我们发布了我们的审计结果,并提供了一个交互式界面,数据溯源浏览器,让从业者可以追踪和筛选最流行的开源调整数据集的数据溯源信息:www.dataprovenance.org。
Oct, 2023
本文介绍了支持机器学习流程端到端可重复性的目标和初步步骤,探讨了除源代码和数据集可用性之外影响机器学习实验证明性的因素,并提出了将 FAIR 数据实践应用于机器学习流程的方法。文中将 ProvBook 作为工具,分析了 Jupyter Notebooks 捕捉和比较机器学习实验及其可重复性的初步结果。
Jun, 2020
为了评估神经模型的能力和风险,我们引入了一种名为 “Proof-of-Training-Data” 的概念,该概念包括了一些协议,使模型训练者能够向验证者证明所产生的一组模型权重的训练数据。我们研究了与大部分当前的大型模型训练程序兼容的 Proof-of-Training-Data 的有效验证策略。
Jul, 2023
此研究的目的是实现机器学习中证明训练过程的机制 ——proof-of-learning。作者观察到随机梯度下降算法具有积累秘密信息的性质,并构建了一种自然的证明机制来证明一个实体已经正确地完成了模型参数优化过程,进而保护模型的知识产权。同时,该证明机制也保持了训练过程的可用性,可以在多方争议模型所有权的情况下使用。实验证明,该机制在硬件和软件环境的变化下仍能保持鲁棒性。
Mar, 2021
本文介绍了一种名为模型再编程的新技术,通过从源域重新利用和重用开发良好的预训练模型来解决目标域中的任务,从而实现资源高效的跨域机器学习,其方法论、现有应用案例和开放性研究问题等均有详细阐述。
Feb, 2022
提出了一种基于 FAIR 原则的数据管理工具架构和实现,通过两个案例展示了如何利用这些工具提高基于机器学习的科学研究的质量。
Jun, 2024