面向少标签文本分类的不确定性自训练
我们提出了一种基于神经网络的半监督文本分类器,利用自训练的正负属性。为了解决自训练中的语义漂移问题,我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外,我们还提出了一种混合度量方法来代替简单的置信度测量,以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型,并表明它明显优于十个多样化的基准模型。同时,我们展示了我们的模型对于语言模型预训练的改进具有附加性。
Dec, 2023
UPET 是一个新颖的、针对标记数据稀缺问题的不确定性感知的参数高效自训练框架,通过在蒙特卡洛(MC)dropout 和贝叶斯神经网络(BNN)中进行不确定性估计,并基于置信度和确定性选择可靠的伪标记样本,在学生训练中引入多个参数高效学习(PEL)范式来仅优化一小部分参数,以及提出了一种新颖的 Easy-Hard 对比调优方法来增强鲁棒性和泛化性能。大量的实验证明 UPET 在性能和效率方面取得了显著改进。
Oct, 2023
在半监督医学图像分割领域,如何从未标记的图像中有效学习图像特征以提高分割的准确性是研究的主要方向之一,本文基于自我训练框架,通过添加样本级别和像素级别的不确定性来稳定训练过程,即有选择地重新训练未标记的样本并为伪标签分配像素级别的不确定性来优化自我训练过程,实现了更好的分割性能。
Apr, 2023
本文介绍了多种改进的方法以减轻自我训练管道中的确认偏差,评估了这些改进在多个数据集上的表现,证明在现有的自我训练设计选择上实现了性能增益,并研究了增强方法对未知类别的 Open Set 无标签数据的扩展性。
Jan, 2023
使用半监督的方法(self-training)从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率,通过进行广泛的实验,提出了一种新的有效的 self-training 策略(HAST),并在四个文本分类基准数据集上进行了评估,仅使用 25% 的数据,超过了之前实验的分类结果,达到了与三个数据集的先前实验相当的分类效果。
Jun, 2024
该研究提出了一种名为 Self-Pretraining 的神经半监督学习模型,该模型可以无阈值地更新先前标记的文档的信念,并且可以处理语义漂移问题,使用迭代蒸馏过程,跨迭代传输假设,利用两阶段训练模型,使用高效的学习率调度和使用伪标签转换启发式方法。
Sep, 2021
本文介绍了二元和多类分类的自学习方法及其变体,并探讨了一些新的方法。我们评估了这些方法在不同的基准分类数据集上的表现,并提出了未来研究的思路。这是首个完整分析的经验综述。
Feb, 2022
该论文研究自训练范式,其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练,以显著改善多个主题中生成中的虚构问题。此外,选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义,解决了训练 LLMs 过程中的关键限制。我们的研究结果表明,这种方法可以大幅减少对大规模标记数据的依赖,为更可伸缩和经济有效的语言模型训练铺平了道路。
Jun, 2024