Dec, 2023

使用 Procrustes 验证集合进行共线数据集增强

TL;DR我们提出了一种新的方法来增加数字和混合数据集,通过利用交叉验证重采样和潜变量建模来生成额外的数据点。该方法对于具有中度到高度共线性的数据集特别有效,因为它直接利用了这个属性进行生成。该方法简单、快速,并且有很少的参数,在文中已经证明无需特定调整。我们对多个真实数据集进行了测试;在这里,我们报告了两种情况的详细结果,即基于近红外光谱的切碎肉中蛋白质的预测(完全数字数据,具有高度共线性)和因冠状动脉造影而被提及的患者的区分(混合数据,包括数字和分类变量,并具有中度共线性)。在这两种情况下,我们使用人工神经网络来开发回归和区分模型。结果显示模型性能有明显提高;因此,在预测肉类蛋白质时,拟合增强数据的模型可以将独立测试集的均方根误差减少 1.5 至 3 倍。