利用集成多样性增强自训练在样本选择偏差存在时的鲁棒性

Oct, 2023

利用集成多样性增强自训练在样本选择偏差存在时的鲁棒性

Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias

Ambroise Odonnat, Vasilii Feofanov, Ievgen Redko

TL;DR自训练是半监督学习中众所周知的方法之一，该方法通过迭代地为模型具有自信的未标记数据分配伪标签，并将其视为标记样例。为了解决置信度过高的问题，本文提出了一种新的置信度度量方法，称为 T - 相似度，它基于线性分类器集合的预测多样性。通过理论分析和实证研究，我们验证了这种置信度度量方法在各种数据模态的分类数据集上的好处，并对三种不同的伪标签策略进行了实验。

Abstract

self-training is a well-known approach for semi-supervised learning. It consists of iteratively assigning pseudo-labels to unlabeled data for which the model is confident and treating them as labeled examples. Fo

self-training semi-supervised learning confidence measure sample selection bias pseudo-labeling policies

发现论文，激发创造

小标记和大无标记集合下的神经网络抵抗（以及支持）自训练：分类

我们提出了一种基于神经网络的半监督文本分类器，利用自训练的正负属性。为了解决自训练中的语义漂移问题，我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外，我们还提出了一种混合度量方法来代替简单的置信度测量，以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型，并表明它明显优于十个多样化的基准模型。同时，我们展示了我们的模型对于语言模型预训练的改进具有附加性。

Dec, 2023

邻域正则化自训练在少标签学习中的应用

本文提出了一种利用相似标签样本选择的自训练深度神经网络的方法，可有效降低错误伪标签产生的噪声影响，并均衡自训练过程性能提高和时间效率优化的关系。

Jan, 2023

增强自训练方法

本文介绍了多种改进的方法以减轻自我训练管道中的确认偏差，评估了这些改进在多个数据集上的表现，证明在现有的自我训练设计选择上实现了性能增益，并研究了增强方法对未知类别的 Open Set 无标签数据的扩展性。

Jan, 2023

自学习：一项调查

本文介绍了二元和多类分类的自学习方法及其变体，并探讨了一些新的方法。我们评估了这些方法在不同的基准分类数据集上的表现，并提出了未来研究的思路。这是首个完整分析的经验综述。

Feb, 2022

局部独立预测模型集合

本文通过介绍新的多样性度量方法介绍了一种新的模型集成方法，该方法特别适用于数据限制和协变量转移，可显著提高模型的多样性和泛化性能。

Nov, 2019

双重稳健自学习

本研究介绍了一种名为双重稳健自训练的算法，利用未标记的数据生成伪标签，与少量的标记数据相结合进行训练，以解决半监督学习问题。经实验证明，该算法优于标准的自训练基线，且在 ImageNet 数据集上表现出色。

Jun, 2023

自监督深度网络无标签数据自训练的理论分析

本研究提出了一种统一的理论分析方法，以解释使用深度神经网络进行自训练的半监督学习、无监督领域适应和无监督学习。结果表明，在使用输入一致性正则化的自训练和输入准确性正则化的人口目标的最小化器下，假定数据的一个低概率子集相对于该子集的大概率邻域具有扩张性，而不同类别的样本邻域具有最小的重叠，可以达到与基准真实标签高精度的结果。

Oct, 2020

EnergyMatch: 基于能量的伪标记半监督学习

本文提出基于能量分数的伪标记法，用于解决深度卷积神经网络中，由于 softmax 置信度无法准确反映样本离训练数据的距离，导致伪标记不可靠的问题，并在不平衡 SSL 数据集上实现了明显的精度提升。

Jun, 2022

面向少标签文本分类的不确定性自训练

本文提出了一种基于贝叶斯深度学习的半监督学习方法，通过利用大规模未标记数据集，以文本分类为应用场景，仅使用 20-30 个样本能够训练出预训练语言模型的近似精度，相较于基线提高 12% 以上。

Jun, 2020

主动学习中的多样性和不确定性的桥接与自监督预训练

使用 TCM 方法，将多样性采样和不确定性采样策略整合到主动学习中，解决了冷启动问题，在低数据和高数据情况下均表现出卓越的性能。

Mar, 2024