The efficacy of machine learning (ML) models depends on both algorithms and
data. Training data defines what we want our models to learn, and testing data
provides the means by which their empirical progress is m
数据驱动科学是一种新兴的范例,其中科学发现取决于针对具体学科的丰富数据集执行计算 AI 模型。通过现代机器学习框架,任何人都可以开发和执行计算模型,揭示隐藏在数据中的概念,从而可能支持科学应用。然而,在实际应用中,收集并计算每个可以运行的计算模型的性能代价昂贵。由于使用代表性数据集来推断性能的基准测试方法具有局限性,每个数据集都具有独特的特征,这需要引入数据集配置文件来作为模型选择过程的一部分,以选择最佳模型进行优化。