May, 2024

大数据的规模有多大?

TL;DR使用机器学习模型,大数据引入了一种新的预测能力。本文评估了 “大数据” 在典型材料科学机器学习问题中的含义,涉及数据量、数据质量和真实性以及基础设施问题。通过选定的示例,研究了模型在相似数据集上的泛化能力、如何从异构数据源收集高质量数据集、模型的特征集和复杂性如何影响表达能力以及创建更大数据集并在其上训练模型所需的基础设施要求。总之,我们发现大数据在各个方面都带来了独特的挑战,这应该促使进一步研究。