模型湖泊
Deep Lake 是面向深度学习应用的开放式数据湖,它在保持数据湖优势的同时,存储更丰富的复杂数据,并以张量形式快速流式传输数据到张量查询语言、浏览器可视化引擎或深度学习框架,同时支持 PyTorch、TensorFlow、JAX 等多种 MLOps 工具。
Sep, 2022
数据湖系统中的语义数据管理及可扩展性对大数据具有挑战,本研究回顾了最近的方法,重点关注数据湖系统内的应用,涉及基本语义数据管理、丰富数据湖中元数据的语义建模方法和基于本体的数据访问方法,同时指出未来工作中需要更紧密地集成大数据和语义 Web 技术。
Oct, 2023
数据管理在大型语言模型的训练中起着基础性的作用,本文调查了数据管理在预训练和有监督微调阶段的各个方面,包括数据数量、数据质量、领域 / 任务组成等,为构建强大的大型语言模型提供了指导资源。
Dec, 2023
通过分析开发者论坛和平台中的 15,065 个帖子,我们使用混合方法来分类查询、提取挑战并通过卡片排序和聚类方法找到解决方案,发现了与资产管理相关的 133 个主题,其中软件依赖、模型部署和模型训练是最常讨论的,同时也发现了 79 个解决方案主题,主要涉及软件依赖、特征开发和文件管理。这项研究强调了对已发现痛点的进一步探索的需要,以及学术界、行业和研究界之间协作努力的重要性。
Feb, 2024
使用主动学习和大规模公共数据集的模型提取框架,可以通过黑盒访问从图像和文本领域的各种数据集中训练出的深度分类器,其中仅使用其 30%(30,000 个样本)的数据集。
May, 2019
在数据湖之中,企业内部需要智能地进行数据发现,特别是关于找到相关的数据表。该文提出了使用不同数据源的表格来开发多个用于这些任务的基准测试,并比较了 4 个公开可用的表格模型在这些任务上的表现,结果显示这些模型在数据发现任务上有很大的改进空间。建立这样的基准测试对于社区构建适用于数据湖中数据发现的表格模型可能是有用的。
Jul, 2023
对于发展中的大型语言模型,数据集从业人员的职责是什么?这篇论文通过回顾性分析和半结构化访谈,发现数据质量是最重要的因素,但对于数据质量的定义和评估方法缺乏一致性,论文讨论了这一现象的潜在原因和整合的机会。
Feb, 2024