本文研究了一种使用自训练方法的半监督学习,提出了 SentAugment 数据增强方法,并取得了在文本分类任务上高达 2.6% 的改进。
Oct, 2020
本文介绍了多种改进的方法以减轻自我训练管道中的确认偏差,评估了这些改进在多个数据集上的表现,证明在现有的自我训练设计选择上实现了性能增益,并研究了增强方法对未知类别的 Open Set 无标签数据的扩展性。
Jan, 2023
本论文综述了自监督预训练技术及其在序列迁移学习框架中的应用,包括自监督学习和迁移学习的分类体系、设计跨不同领域的预训练任务的突出方法以及近期趋势和未来研究方向。
Jul, 2020
本研究提出了一种统一的理论分析方法,以解释使用深度神经网络进行自训练的半监督学习、无监督领域适应和无监督学习。结果表明,在使用输入一致性正则化的自训练和输入准确性正则化的人口目标的最小化器下,假定数据的一个低概率子集相对于该子集的大概率邻域具有扩张性,而不同类别的样本邻域具有最小的重叠,可以达到与基准真实标签高精度的结果。
本研究介绍了一种名为双重稳健自训练的算法,利用未标记的数据生成伪标签,与少量的标记数据相结合进行训练,以解决半监督学习问题。经实验证明,该算法优于标准的自训练基线,且在 ImageNet 数据集上表现出色。
Jun, 2023
本文提出了一种利用相似标签样本选择的自训练深度神经网络的方法,可有效降低错误伪标签产生的噪声影响,并均衡自训练过程性能提高和时间效率优化的关系。
我们提出了一种基于神经网络的半监督文本分类器,利用自训练的正负属性。为了解决自训练中的语义漂移问题,我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外,我们还提出了一种混合度量方法来代替简单的置信度测量,以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型,并表明它明显优于十个多样化的基准模型。同时,我们展示了我们的模型对于语言模型预训练的改进具有附加性。
Dec, 2023
该研究提出了一种名为 Self-Pretraining 的神经半监督学习模型,该模型可以无阈值地更新先前标记的文档的信念,并且可以处理语义漂移问题,使用迭代蒸馏过程,跨迭代传输假设,利用两阶段训练模型,使用高效的学习率调度和使用伪标签转换启发式方法。
Sep, 2021
本文介绍了二元和多类分类的自学习方法及其变体,并探讨了一些新的方法。我们评估了这些方法在不同的基准分类数据集上的表现,并提出了未来研究的思路。这是首个完整分析的经验综述。
Feb, 2022
本文提出了一种半监督学习的方法,即自我训练范式,通过用标注数据训练教师模型并在大量未标注数据上生成伪标签,以较少的监督实现像素级准确模型,并在 Cityscapes,CamVid 和 KITTI 数据集上取得了最优表现,同时,在具有挑战性的跨域泛化任务上表现更佳,最后,为了减轻大量伪标签带来的计算负担,提出了一种快速训练计划来加速分割模型的训练。
Apr, 2020