文本数据集中的半监督学习算法调研
通过实现多种常用的 SSL 技术并在一系列实验中进行测试,研究发现简单基线方法的表现通常被低估,而 SSL 方法对标记和未标记数据的敏感性不同,当未标记数据集包含类外示例时性能可能会显著下降,因此我们提供了一个公共代码重现平台以帮助实现 SSL 技术在实际应用中的可行性。
Apr, 2018
本文提出一种新的 SSL 算法,通过引入转移学习和自主监督来初始化数据的表示,再利用新算法,交替拟合有标签和无标签点以降低过拟合和避免标签和无标签损失平衡的问题。实验证明,该方法在标准基准测试中表现优异,特别是在从其他任务或数据集中细化时,效果更佳。
May, 2019
我们研究了自监督学习中数据增强、预训练算法和模型架构的相对效果。通过比较多个著名的自监督学习方法,我们发现增强技术对性能的改进更为显著,而许多算法改进只有微小的影响。我们的发现挑战了自监督学习主要由算法改进主导的预设,并指出多样的增强方法以及数据和模型规模是自监督学习近期进展的更为关键的因素。
Mar, 2024
本文提出了一个 semi-supervised learning (SSl) 的新方法:Mixture of Expert/Imitator Networks,该模型通过利用大量未标记数据来训练 imitator 网络模拟 expert 网络的标签分布,从而提高 text classification 任务的性能,实验结果表明该方法可适用于多种深度神经网络模型,并且性能随未标记数据的增加而提高。
Oct, 2018
本文对自我监督学习的理论与实践中被忽视的问题进行了分析,阐述了数据增强、网络结构和训练算法对于预训练和下游任务泛化性能的影响,并为自我监督学习的从业者指出了一些有价值的见解。
Feb, 2023
自我监督学习(SSL)作为应对深度神经网络(DNNs)中有限标记数据挑战的一种有前途的解决方案,具有可扩展性潜力。本研究全面探索了 SSL 在各种数据增强中的行为,揭示了它们在塑造 SSL 模型性能和学习机制方面的关键作用。利用这些见解,我们提出了一种集成先验知识的新学习方法,旨在减少对大量数据增强的需求,从而增强学习表示的有效性。尤其值得注意的是,我们的发现表明,富含先验知识的 SSL 模型表现出较小的纹理偏差,对快捷方式和增强技术的依赖减弱,并且对自然和对抗性破坏具有改进的鲁棒性。这些发现不仅为 SSL 研究指明了新的方向,而且为提高 DNN 性能、减轻对大量数据增强的要求,从而增强可扩展性和实际问题解决能力方面铺平了道路。
Apr, 2024
研究表明,超参数和数据增强策略的选择对 Self-Supervised Learning(SSL)方法的影响很大,因此可以通过超参数优化和引入新的数据增强算法 GroupAugment 来提高 SSL 的性能和准确率。
Jul, 2022
本篇研究项目中,我们通过控制文本生成的最新技术,进行了高质量的数据增强,同时引入了模型架构的小而显著的改变,从而使得数据插值后进行更多的训练数据生成。这些数据增强方法,结合了稳健性训练,得到了在四个基准数据集上半监督关系提取的非常有竞争力的结果。
Jun, 2023
本研究探讨了半监督学习与预训练语言模型在数据生成文本方面的效果。结果表明,半监督学习方法可以增强输出质量和多样性,即使已经使用了预训练语言模型。
Jul, 2022
本文介绍了一种基于自主学习算法的预训练深度神经网络的方法,通过演化搜索方法在预处理任务的数据增益管道中编码数据增益算子的不同组合,优化所谓的‘拟预处理任务’,并测量了增强运算器对几个最先进的自监督学习算法性能的影响。研究结果表明,优化规则采用的数据增强器算子组合对自监督学习算法整体性能具有显着影响。
Mar, 2023