Jan, 2024

多视图集成学习中的语义保持特征分区

TL;DR机器学习中,数据的指数增长和相关的 “维度之诅咒” 带来了重大挑战,特别是在扩大但稀疏的数据集中。多视图集成学习 (MEL) 是一种变革性方法,其中特征分区 (FP) 在构建 MEL 的人工视图中起到关键作用。本研究引入了语义保持特征分区 (SPFP) 算法,这是一种基于信息理论的新方法。SPFP 算法有效地将数据集分为多个语义一致的视图,增强了 MEL 过程。通过对八个真实数据集的广泛实验,从高维度有限实例到低维度高实例,我们的方法展示了显著的效果。在可获得高泛化性能的场景中,它保持模型准确性同时显著改善不确定性度量。相反,在高泛化准确性较难实现时,它保持不确定度度量同时提高准确性。效果大小分析进一步表明,SPFP 算法通过有效的维度减少超过基准模型,降低了计算需求。大多数实验中观察到的显著效果大小强调了该算法在模型性能上的显著改进。