大数据管理特征化
使用机器学习模型,大数据引入了一种新的预测能力。本文评估了 “大数据” 在典型材料科学机器学习问题中的含义,涉及数据量、数据质量和真实性以及基础设施问题。通过选定的示例,研究了模型在相似数据集上的泛化能力、如何从异构数据源收集高质量数据集、模型的特征集和复杂性如何影响表达能力以及创建更大数据集并在其上训练模型所需的基础设施要求。总之,我们发现大数据在各个方面都带来了独特的挑战,这应该促使进一步研究。
May, 2024
这篇文献讨论了大数据的显著特征及其对统计和计算方法的范式变革产生的影响,强调了高置信度集中最稀疏解的可行性,并指出大多数针对大数据的统计方法中的外生性假设无法被验证,容易导致错误的统计推断和错误的科学结论。
Aug, 2013
介绍大数据科学中使用云计算作为一种实用且成本效益高的解决方案,着重分析软件堆栈的建设模块,为数据科学家提供大数据分析应用的普及服务,为该领域的最新发展和挑战提供各种见解。
Sep, 2017
数据湖系统中的语义数据管理及可扩展性对大数据具有挑战,本研究回顾了最近的方法,重点关注数据湖系统内的应用,涉及基本语义数据管理、丰富数据湖中元数据的语义建模方法和基于本体的数据访问方法,同时指出未来工作中需要更紧密地集成大数据和语义 Web 技术。
Oct, 2023
现代农业面临着在气候变化和自然资源减少的限制下,满足食品、燃料、饲料和纤维的不断增长需求的巨大挑战。数据创新迫切需要确保和提高农业生态系统的生产力、可持续性和弹性。本文介绍了满足 FAIR 原则的农业数据管理和分析(ADMA)系统,该系统通过支持跨学科的语义数据管理,提供多种数据管理和分析门户,利用高性能计算技术扩展性强,允许用户加载自己的数据分析工具,通过跟踪文件上的不同操作进行追踪,并使用丰富的成熟开源技术来保持开放性。
Nov, 2023