Mar, 2024

登上 ISS: 不平衡的自监督:混合表格数据集的缩放自编码器发现

TL;DR通过研究表格数据中自我监督学习不平衡,尤其是在图像数据集中,看到现有研究主要集中在图像数据集,本文旨在填补这一空白,着重探讨自我监督学习在表格数据领域中因数据不平衡而带来的具体挑战,重点关注自编码器。我们分析了目前使用一个热编码器和标准损失函数(MSE 或交叉熵)对混合表格数据进行编码的方法的缺点,特别是在分类变量不平衡时。我们提出了一种新的平衡学习的度量方法:多重监督平衡 MSE。这种方法通过平衡变量的影响来减少重构误差。最后,我们通过实验证明了这种新度量方法相比于标准 MSE,在数据集不平衡且学习过程不充分时表现更好,并在相反情况下提供类似的结果。