Oct, 2023

利用集成多样性增强自训练在样本选择偏差存在时的鲁棒性

TL;DR自训练是半监督学习中众所周知的方法之一,该方法通过迭代地为模型具有自信的未标记数据分配伪标签,并将其视为标记样例。为了解决置信度过高的问题,本文提出了一种新的置信度度量方法,称为 T - 相似度,它基于线性分类器集合的预测多样性。通过理论分析和实证研究,我们验证了这种置信度度量方法在各种数据模态的分类数据集上的好处,并对三种不同的伪标签策略进行了实验。