模型湖泊

Mar, 2024

Model Lakes

Koyena Pal, David Bau, Renée J. Miller

TL;DR给定一组深度学习模型，找到适合的模型、理解模型、区分模型以及模型之间的差异是困难的。目前的从业者依赖手动编写的文档来理解和选择模型。然而，并非所有模型都有完整和可靠的文档。随着机器学习模型的增加，找到、区分和理解模型的问题变得更加关键。针对数据湖的研究启发，我们引入和定义了模型湖的概念。我们讨论了在大型模型管理中的基本研究挑战，并讨论了什么样的原则性数据管理技术可以应用于大型模型管理研究。

Abstract

Given a set of deep learning models, it can be hard to find models appropriate to a task, understand the models, and characterize how models are different one from another. Currently, practitioners rely on manually-written →

deep learning models model lakes documentation data lakes large model management

发现论文，激发创造

深湖：一个深度学习的数据湖

Deep Lake 是面向深度学习应用的开放式数据湖，它在保持数据湖优势的同时，存储更丰富的复杂数据，并以张量形式快速流式传输数据到张量查询语言、浏览器可视化引擎或深度学习框架，同时支持 PyTorch、TensorFlow、JAX 等多种 MLOps 工具。

Sep, 2022

数据湖中的语义数据管理

数据湖系统中的语义数据管理及可扩展性对大数据具有挑战，本研究回顾了最近的方法，重点关注数据湖系统内的应用，涉及基本语义数据管理、丰富数据湖中元数据的语义建模方法和基于本体的数据访问方法，同时指出未来工作中需要更紧密地集成大数据和语义 Web 技术。

Oct, 2023

大规模语言模型的数据管理：一项调查

数据管理在大型语言模型的训练中起着基础性的作用，本文调查了数据管理在预训练和有监督微调阶段的各个方面，包括数据数量、数据质量、领域 / 任务组成等，为构建强大的大型语言模型提供了指导资源。

Dec, 2023

Learnware: 小模型大作用

介绍了 learnware 范例，它的目标是使用户无需从头开始构建机器学习模型，使用小模型甚至超越其原始目的的希望。

Oct, 2022

机器学习资产管理的挑战的实证研究

通过分析开发者论坛和平台中的 15,065 个帖子，我们使用混合方法来分类查询、提取挑战并通过卡片排序和聚类方法找到解决方案，发现了与资产管理相关的 133 个主题，其中软件依赖、模型部署和模型训练是最常讨论的，同时也发现了 79 个解决方案主题，主要涉及软件依赖、特征开发和文件管理。这项研究强调了对已发现痛点的进一步探索的需要，以及学术界、行业和研究界之间协作努力的重要性。

Feb, 2024

大模型发展路线图

本文综述了大规模模型（BMs）的技术、训练和应用，分为资源、模型、关键技术和应用等四个部分，总结了当前研究并提出了未来研究方向。

Mar, 2022

通过利用公共数据提取深度神经网络的框架

使用主动学习和大规模公共数据集的模型提取框架，可以通过黑盒访问从图像和文本领域的各种数据集中训练出的深度分类器，其中仅使用其 30%（30,000 个样本）的数据集。

May, 2019

图像机器学习数据漂移控制的数据模型

本研究结合传统机器学习和光学物理学，构建显式且可微分的数据模型，用于控制下游机器学习模型性能与数据漂移相关性，进而进行数据环境的精密规定和优化。

Nov, 2022

LakeBench：数据湖上的数据发现基准测试

在数据湖之中，企业内部需要智能地进行数据发现，特别是关于找到相关的数据表。该文提出了使用不同数据源的表格来开发多个用于这些任务的基准测试，并比较了 4 个公开可用的表格模型在这些任务上的表现，结果显示这些模型在数据发现任务上有很大的改进空间。建立这样的基准测试对于社区构建适用于数据湖中数据发现的表格模型可能是有用的。

Jul, 2023

理解大型语言模型开发背后的数据集实践者

对于发展中的大型语言模型，数据集从业人员的职责是什么？这篇论文通过回顾性分析和半结构化访谈，发现数据质量是最重要的因素，但对于数据质量的定义和评估方法缺乏一致性，论文讨论了这一现象的潜在原因和整合的机会。

Feb, 2024