Apr, 2024

对装袋不足进行复制分析

TL;DR通过对一种用于从不平衡数据中训练分类器的流行集成学习方法的尖锐渐近性进行推导,本文比较了与几种其他标准方法在从二元混合数据中训练线性分类器的情况下学习不平衡数据的性能。从结果中发现,增加多数类别的大小可以提高 UB 的性能,特别是当少数类别的大小较小时。与之相反,US 的性能不随多数类别的大小变化而变化,而 SW 的性能则随不平衡程度的增加而降低,表明集成和对参数的直接正则化之间存在固有差异。