数据湖中的语义数据管理
本文讨论了当前数据科学和机器学习自动化解决方案的重要缺陷,并设想如何利用语义理解和推理与数据科学自动化的新工具相结合,以帮助保持一致且可解释的数据增强和转换。另外,我们还讨论了语义如何在处理与信任、偏见和可解释性相关的挑战方面以一种崭新的方式帮助数据科学家,并在更好地探索和组织大型数据源方面提供帮助。
Mar, 2023
基于元数据驱动、灵活和半自动化的数据治理框架,整合了 25 年的临床研究数据,并利用语义网原则建立了知识图谱,实现了 FAIR 化、生命周期管理、角色和责任定义、转化过程中的关系和源系统来源的溯源,为自动化的数据治理提供了先决条件,并使其适用于各个用例并动态适应业务变化。
Oct, 2023
本文提出了一种通过应用机器学习改善数据空间语义互操作性的方案,自动生成和更新元数据、更灵活的词汇,使不同子群体使用不同的术语成为可能,以解决当前数据交换的限制。
Mar, 2023
本文介绍了当前自动化数据科学和机器学习的重要缺陷,并讨论了如何利用基本的语义推理和新型数据科学自动化工具相结合来帮助数据扩充和转换的一致性和可解释性。此外,语义可以通过帮助解决信任、偏见和可解释性方面的挑战,以一种新的方式协助数据科学家。
May, 2022
给定一组深度学习模型,找到适合的模型、理解模型、区分模型以及模型之间的差异是困难的。目前的从业者依赖手动编写的文档来理解和选择模型。然而,并非所有模型都有完整和可靠的文档。随着机器学习模型的增加,找到、区分和理解模型的问题变得更加关键。针对数据湖的研究启发,我们引入和定义了模型湖的概念。我们讨论了在大型模型管理中的基本研究挑战,并讨论了什么样的原则性数据管理技术可以应用于大型模型管理研究。
Mar, 2024
基于语义的可视化查询系统在第四工业革命(工业 4.0)中的应用,该系统利用自定义数字化表示的机器和语义描述来实现对数据的探索和可视化,提供更高层次的抽象查询、基于数据格式和性质的定制图形可视化结果以及下载丰富数据以进行进一步的分析。
Jan, 2024
本文介绍了一个基于本体论的方法,用于在分散的家庭能源系统中管理分辨率为设备级别的数据,以便更好地利用来自互联网和 Web 的各种数据,促进能源可持续发展。
Aug, 2022
通过将语义技术和机器学习与云系统相结合,SemCloud 为非云计算专家提供了一个语义增强的云系统,它依靠领域本体和数据集成映射来实现数据处理和分析的分布式计算。
Aug, 2023
本文提出了一种全球语言数据治理的方法,该方法旨在将数据管理围绕利益相关者、价值观和权利组织起来。我们的提议基于分布式治理的先前工作,并通过来自 60 个国家的研究员和实践者的国际研究合作进行了支撑。我们提出的框架是以语言数据为重点的多方国际治理结构,并纳入支撑其工作所需的技术和组织工具。
May, 2022
Deep Lake 是面向深度学习应用的开放式数据湖,它在保持数据湖优势的同时,存储更丰富的复杂数据,并以张量形式快速流式传输数据到张量查询语言、浏览器可视化引擎或深度学习框架,同时支持 PyTorch、TensorFlow、JAX 等多种 MLOps 工具。
Sep, 2022