自然语言处理的半监督分类

Sep, 2014

Semi-supervised Classification for Natural Language Processing

Rushdi Shams

TL;DR本研究探讨了半监督分类在自然语言处理任务（如分析、生物医学信息处理、文本分类和摘要）中的可能性、成就以及复杂性和限制。

Abstract

semi-supervised classification is an interesting idea where classification models are learned from both labeled and unlabeled data. It has several advantages over supervised classification in →

semi-supervised classification labeled data unlabeled data natural language processing limitations

发现论文，激发创造

基于正类和未标记数据分类的半监督分类

本文提出一种新的半监督分类方法，通过将无标签数据引入到分类模型中，使模型的下降边界可以与无标签数据的数量成比例而不需要假设簇的条件。经过实验证明这种方法的有效性。

May, 2016

优化非监督学习和监督学习：精确自然语言任务建模的混合方法

本文提出了一种新颖的混合方法，通过协同无监督和有监督学习，来提高自然语言处理任务建模的准确性。通过集成无监督模块和有监督模块，该方法在文本分类和命名实体识别方面取得了最新技术结果，为更高效和强大的自然语言处理系统铺平了道路。

Jun, 2024

学习无标注数据推理：一种半监督学习方法用于强健的自然语言推理

本文提出了一种结合无标注数据的 NLI 半监督学习方法，其中使用了条件语言模型 BART 生成假设句子，以减少对人类注释的依赖，实验结果显示该方法能够成功地利用无标注数据并在低资源环境下显著提高四个 NLI 评测集的性能。

Nov, 2022

探索无标签数据在金融情感分析中的贡献

该研究论文讨论了如何在文本分类中使用半监督学习作为解决标注数据少的问题的有效方法，它通过从偏差和方差的角度分析，得出了如果使用更加有效的特征选择方法，无标注数据很有可能提高分类性能，并提出了一个特征选择框架以平衡有标注和无标注样本的训练。同时，研究还将该方法应用到金融情感分析中，并讨论了该方法对文本分类和金融情感分析的影响。

Aug, 2013

利用已标记和未标记数据进行学习：技术和领域的实证研究

本文对多种半监督学习技术在不同数据集上进行实证研究，探讨标记数据和未标记数据的独立性、相关性、数量和噪声对学习效果的影响，同时针对样本选择偏差实现双变量 Probit 技术进行校正。

Sep, 2011

基于大规模预训练的文本分类神经半监督学习

本文研究了大规模语言模型预训练下半监督学习在文本分类任务中的应用及其效果，发现使用 U 集合（无监督数据）配合 D 集合（有监督数据）应用半监督学习策略可以在小样本数据集情况下达到高精度分类。

Nov, 2020

深度半监督学习概述

本文综述了深度半监督学习的概念及其在深度神经网络上的应用，以期实现更高的数据效率。

Jun, 2020

半监督自然语言理解的双向学习

通过引入一个新的 NLU 双重任务 —— 语义到句子生成 (SSG)，并提出一种新的半监督 NLU 框架，其中包括对应的双重模型，以解决之前半监督学习面临的标注样本稀缺问题。该框架通过主任务与对偶任务之间的闭环，使得 NLU 模型可以充分利用数据（标记和无标记），并在每次迭代中逐步提高 NLU 和 SSG 模型的性能，在 ATIS 和 SNIPS 两个公共数据集上的实验结果表明，该方法明显优于基线，而且在监督设置下也可以达到最先进水平。

Apr, 2020

半监督神经标记的科学信息提取

本文通过将问题建模为序列标注，并利用半监督学习方法和数据选择方案，提出了一个基于神经标注模型的关键短语提取和分类算法，该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。

Aug, 2017

半监督式学习中的学习

本文提出了一种基于元学习的半监督学习方法，将有标签和无标签数据的相似度转化为对应的语义相似度，并通过自监督学习的方法实现了对有标签数据的更新。实验证明该方法较之传统方法更为有效。

Aug, 2020