优化非监督学习和监督学习：精确自然语言任务建模的混合方法

Jun, 2024

优化非监督学习和监督学习：精确自然语言任务建模的混合方法

Synergizing Unsupervised and Supervised Learning: A Hybrid Approach for Accurate Natural Language Task Modeling

Wrick Talukdar, Anjanava Biswas

TL;DR本文提出了一种新颖的混合方法，通过协同无监督和有监督学习，来提高自然语言处理任务建模的准确性。通过集成无监督模块和有监督模块，该方法在文本分类和命名实体识别方面取得了最新技术结果，为更高效和强大的自然语言处理系统铺平了道路。

Abstract

While supervised learning models have shown remarkable performance in various natural language processing (NLP) tasks, their success heavily relies on the availability of large-scale labeled datasets, which can be costly and time-consuming to obtain. Conversely, →

supervised learning models unsupervised learning techniques hybrid approach text classification named entity recognition

发现论文，激发创造

双向语言模型的半监督序列标注

本文探讨了一种半监督的方法，通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务，相比其他转移学习或添加标记数据和任务特定词典的方法，在命名实体识别和块分割等任务上实现了最先进的结果。

Apr, 2017

利用自然监督进行语言表示学习和生成

本论文研究了三个方面的工作：如何提高预训练模型在 NLP 任务中的性能，在维基百科和释义上利用语言结构以提取知识，以及定制文本资源以建立挑战性的评估任务。

Jul, 2022

自然语言处理任务中的迁移学习监督上下文嵌入

本文关注于从多个预训练的监督模型中提取表示，以丰富单词嵌入具有任务和领域特定的知识，实验表明这样的监督嵌入对于低资源情况有所帮助，但对于任务和领域的性质不同的扩展程度不同，而我们公开了我们的代码。

Jun, 2019

机器学习与符号方法的协同：自然语言处理中混合方法的综述

综述了机器学习和符号方法在自然语言处理中的缺点和优势以及其通过混合方法的桥梁作用，讨论了混合方法在需要自然语言理解、生成和推理的广泛领域的最新研究，同时探讨了现有资源和面临的挑战，并提出了未来方向的路线图。

Jan, 2024

深度学习中的混合和集成模型在自然语言处理中的综述

该研究综述了自然语言处理中混合和集成深度学习模型的广泛探索，揭示了它们在情感分析、实体识别、机器翻译、问答、文本分类、生成、语音识别、摘要生成和语言建模等多种任务中具有的变革潜力。研究系统地介绍了每个任务，从循环神经网络 (RNNs) 到基于 Transformer 的模型如 BERT，阐述了它们的性能、挑战和计算需求。强调了集成技术的适应性，突出了它们增强各种自然语言处理应用的能力。还讨论了在实施过程中的挑战，包括计算负载、过拟合和模型解释复杂性，以及解释性和性能之间的权衡。作为精炼而宝贵的指南，该综述综合了有关任务、模型结构和挑战的见解，为研究人员和从事自然语言处理的从业者提供了一个综合的视角，以通过集成深度学习在自然语言处理中推进基于语言的应用。

Dec, 2023

自然语言处理的半监督分类

本研究探讨了半监督分类在自然语言处理任务（如分析、生物医学信息处理、文本分类和摘要）中的可能性、成就以及复杂性和限制。

Sep, 2014

从自然语言推理数据中监督学习通用句子表示

本研究探讨了利用 Stanford 自然语言推断数据集的监督学习训练通用句子向量表示，相比于 SkipThought 等无监督方法，该方式在多种迁移学习任务中表现更优，因此表明自然语言推断适用于迁移学习。

May, 2017

结合深度生成模型和多语言预训练进行半监督文档分类

本文结合半监督深度生成模型与多语预训练技术，设计了一套用于文档分类的流程，在多个语种的低资源场景中表现出极强的竞争力，胜过现有最先进的方法。

Jan, 2021

利用 LLM 增加 NER 数据集：走向自动化和精确注释

在自然语言处理（NLP）领域，命名实体识别（NER）被认为是一项关键技术，广泛应用于各种应用。本研究引入了一种新颖的混合标注方法，将人力与大型语言模型（LLMs）的能力相结合，旨在提高 NER 模型的性能，并以经济的方式解决传统标注方法存在的噪音和类别不平衡问题。通过多个数据集的分析，该方法在受限预算条件下始终显示出比传统标注方法更优越的性能，揭示了利用 LLMs 提高数据集质量的潜力，引入了一种减轻类别不平衡问题的新技术，并证明了以经济方式实现高性能 NER 的可行性。

Mar, 2024

通过有效的注释和表示投影进行弱监督的跨语言命名实体识别

本文提出两种弱监督的跨语言实体标识方法，分别基于注释投影和词嵌入，无需使用目标语言的人工注释数据。同时，我们设计了两种协同解码方案，将两个基于投影的方法的输出相结合，评估表明这种组合性的方法优于其他三种弱监督方法。

Jul, 2017