数据湖中的语义数据管理

Oct, 2023

Semantic Data Management in Data Lakes

Sayed Hoseini, Johannes Theissen-Lipp, Christoph Quix

TL;DR数据湖系统中的语义数据管理及可扩展性对大数据具有挑战，本研究回顾了最近的方法，重点关注数据湖系统内的应用，涉及基本语义数据管理、丰富数据湖中元数据的语义建模方法和基于本体的数据访问方法，同时指出未来工作中需要更紧密地集成大数据和语义 Web 技术。

Abstract

In recent years, data lakes emerged as away to manage large amounts of heterogeneous data for modern data analytics. One way to prevent data lakes from turning into inoperable data swamps is →

data lakes semantic data management metadata knowledge graphs big data

发现论文，激发创造

语义化数据科学的愿景

本文讨论了当前数据科学和机器学习自动化解决方案的重要缺陷，并设想如何利用语义理解和推理与数据科学自动化的新工具相结合，以帮助保持一致且可解释的数据增强和转换。另外，我们还讨论了语义如何在处理与信任、偏见和可解释性相关的挑战方面以一种崭新的方式帮助数据科学家，并在更好地探索和组织大型数据源方面提供帮助。

Mar, 2023

基于语义建模的组织知识作为企业数据治理 4.0 的基础 —— 应用于统一的临床数据模型

基于元数据驱动、灵活和半自动化的数据治理框架，整合了 25 年的临床研究数据，并利用语义网原则建立了知识图谱，实现了 FAIR 化、生命周期管理、角色和责任定义、转化过程中的关系和源系统来源的溯源，为自动化的数据治理提供了先决条件，并使其适用于各个用例并动态适应业务变化。

Oct, 2023

利用机器学习增强数据空间语义互操作性：一种展望性视角

本文提出了一种通过应用机器学习改善数据空间语义互操作性的方案，自动生成和更新元数据、更灵活的词汇，使不同子群体使用不同的术语成为可能，以解决当前数据交换的限制。

Mar, 2023

自动数据科学中的语义调研

本文介绍了当前自动化数据科学和机器学习的重要缺陷，并讨论了如何利用基本的语义推理和新型数据科学自动化工具相结合来帮助数据扩充和转换的一致性和可解释性。此外，语义可以通过帮助解决信任、偏见和可解释性方面的挑战，以一种新的方式协助数据科学家。

May, 2022

模型湖泊

给定一组深度学习模型，找到适合的模型、理解模型、区分模型以及模型之间的差异是困难的。目前的从业者依赖手动编写的文档来理解和选择模型。然而，并非所有模型都有完整和可靠的文档。随着机器学习模型的增加，找到、区分和理解模型的问题变得更加关键。针对数据湖的研究启发，我们引入和定义了模型湖的概念。我们讨论了在大型模型管理中的基本研究挑战，并讨论了什么样的原则性数据管理技术可以应用于大型模型管理研究。

Mar, 2024

工业 4.0 中大数据探索的语义方法

基于语义的可视化查询系统在第四工业革命（工业 4.0）中的应用，该系统利用自定义数字化表示的机器和语义描述来实现对数据的探索和可视化，提供更高层次的抽象查询、基于数据格式和性质的定制图形可视化结果以及下载丰富数据以进行进一步的分析。

Jan, 2024

基于语义网的分散家庭能源数据提升方法

本文介绍了一个基于本体论的方法，用于在分散的家庭能源系统中管理分辨率为设备级别的数据，以便更好地利用来自互联网和 Web 的各种数据，促进能源可持续发展。

Aug, 2022

利用语义和机器学习扩展数据科学解决方案：博世案例

通过将语义技术和机器学习与云系统相结合，SemCloud 为非云计算专家提供了一个语义增强的云系统，它依靠领域本体和数据集成映射来实现数据处理和分析的分布式计算。

Aug, 2023

大数据驱动语言技术时代的数据治理

本文提出了一种全球语言数据治理的方法，该方法旨在将数据管理围绕利益相关者、价值观和权利组织起来。我们的提议基于分布式治理的先前工作，并通过来自 60 个国家的研究员和实践者的国际研究合作进行了支撑。我们提出的框架是以语言数据为重点的多方国际治理结构，并纳入支撑其工作所需的技术和组织工具。

May, 2022

深湖：一个深度学习的数据湖

Deep Lake 是面向深度学习应用的开放式数据湖，它在保持数据湖优势的同时，存储更丰富的复杂数据，并以张量形式快速流式传输数据到张量查询语言、浏览器可视化引擎或深度学习框架，同时支持 PyTorch、TensorFlow、JAX 等多种 MLOps 工具。

Sep, 2022