自然语言处理的半监督分类
本文提出一种新的半监督分类方法,通过将无标签数据引入到分类模型中,使模型的下降边界可以与无标签数据的数量成比例而不需要假设簇的条件。经过实验证明这种方法的有效性。
May, 2016
本文提出了一种新颖的混合方法,通过协同无监督和有监督学习,来提高自然语言处理任务建模的准确性。通过集成无监督模块和有监督模块,该方法在文本分类和命名实体识别方面取得了最新技术结果,为更高效和强大的自然语言处理系统铺平了道路。
Jun, 2024
本文提出了一种结合无标注数据的 NLI 半监督学习方法,其中使用了条件语言模型 BART 生成假设句子,以减少对人类注释的依赖,实验结果显示该方法能够成功地利用无标注数据并在低资源环境下显著提高四个 NLI 评测集的性能。
Nov, 2022
该研究论文讨论了如何在文本分类中使用半监督学习作为解决标注数据少的问题的有效方法,它通过从偏差和方差的角度分析,得出了如果使用更加有效的特征选择方法,无标注数据很有可能提高分类性能,并提出了一个特征选择框架以平衡有标注和无标注样本的训练。同时,研究还将该方法应用到金融情感分析中,并讨论了该方法对文本分类和金融情感分析的影响。
Aug, 2013
本文对多种半监督学习技术在不同数据集上进行实证研究,探讨标记数据和未标记数据的独立性、相关性、数量和噪声对学习效果的影响,同时针对样本选择偏差实现双变量 Probit 技术进行校正。
Sep, 2011
本文研究了大规模语言模型预训练下半监督学习在文本分类任务中的应用及其效果,发现使用 U 集合(无监督数据)配合 D 集合(有监督数据)应用半监督学习策略可以在小样本数据集情况下达到高精度分类。
Nov, 2020
通过引入一个新的 NLU 双重任务 —— 语义到句子生成 (SSG),并提出一种新的半监督 NLU 框架,其中包括对应的双重模型,以解决之前半监督学习面临的标注样本稀缺问题。该框架通过主任务与对偶任务之间的闭环,使得 NLU 模型可以充分利用数据(标记和无标记),并在每次迭代中逐步提高 NLU 和 SSG 模型的性能,在 ATIS 和 SNIPS 两个公共数据集上的实验结果表明,该方法明显优于基线,而且在监督设置下也可以达到最先进水平。
Apr, 2020
本文通过将问题建模为序列标注,并利用半监督学习方法和数据选择方案,提出了一个基于神经标注模型的关键短语提取和分类算法,该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。
Aug, 2017
本文提出了一种基于元学习的半监督学习方法,将有标签和无标签数据的相似度转化为对应的语义相似度,并通过自监督学习的方法实现了对有标签数据的更新。实验证明该方法较之传统方法更为有效。
Aug, 2020