命名实体识别的深度主动学习

Jul, 2017

Deep Active Learning for Named Entity Recognition

Yanyao Shen, Hyokun Yun, Zachary C. Lipton, Yakov Kronrod, Animashree Anandkumar

TL;DR本文介绍了一种名为 CNN-CNN-LSTM 的轻量级深度学习模型，通过增量主动学习技术，可以显著减少已标记训练样本量，达到几乎与最先进模型相媲美的性能表现。

Abstract

deep learning has yielded state-of-the-art performance on many natural language processing tasks including named entity recognition (NER). However, this typically requires large amounts of labeled data. In this w

deep learning named entity recognition active learning cnn-cnn-lstm incremental learning

发现论文，激发创造

深度学习模型中命名实体识别的最近进展综述

本文综述了深度神经网络在命名实体识别方面的应用，相对于传统的基于特征工程和监督或半监督学习算法的实体识别方法，神经网络在该领域中取得了更好的效果，并表明吸收过去的基于特征的 NER 系统的一些经验教训可以进一步提高性能。

Oct, 2019

命名实体识别的深度学习调查

本文基于三个维度的分类法，系统地回顾了深度学习在命名实体识别上的应用技术，并介绍了面临的挑战和未来的研究方向。

Dec, 2018

命名实体识别的神经网络结构

本文介绍基于双向 LSTM 和条件随机场，以及基于转移的方法的两种新的神经网络模型，这些模型不依赖于领域特定的知识和语言。通过使用监督语料库和未标注语料库，字符表示和无监督的学习表示，这些模型在四种语言中实现了名词实体识别的最先进性能。

Mar, 2016

高度不平衡数据下适应性命名实体识别

本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构，其中嵌入向量（Glove，BERT）的融合输入被用来增强模型的泛化能力，还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明，该方法显著提高了弱类的表现结果，并且只使用了非常少量的数据集。

Mar, 2020

命名实体识别的神经重排

本文提出了一种神经再排序系统，用于命名实体识别，利用递归神经网络模型来学习涉及命名实体提及的句子级模式，使用 LSTM 和 CNN 结构来学习这些句子的深层表示以进行再排序。实验结果表明，我们的系统可以显著提高命名实体识别准确率，超过了两个不同的基线，并在标准基准测试中报告了最好的结果。

Jul, 2017

医疗文本中的少样本命名实体识别

本研究在仅有 10 个注释示例的情况下，通过使用预训练权重、超参数调整、预处理数据、自定义词嵌入和优化词外词汇等 5 个因素改善了命名实体识别任务，并将其 F1 得分从 69.3% 提高到 78.87%。

Nov, 2018

一种基于本地检测的命名实体识别多任务学习方法

本研究尝试通过组合多个具有一定关系但不同内容的命名实体识别数据集，使用基于 FFNN 的局部探测多任务模型从变长单词序列生成理论上无损且唯一的固定大小表示，提高该领域任务的性能表现，实验结果表明，该模型在几乎所有任务中表现出有竞争力的性能。

Apr, 2019

DistALANER：在开源软件生态系统中增强的基于远程监督的主动学习命名实体识别

本文提出了一种新的命名实体识别（NER）技术，专门针对开源软件系统。我们的方法通过使用全面的两步远程监督注释过程来解决注释软件数据的稀缺性问题。该方法战略性地利用语言启发式方法、唯一的查找表、外部知识源和主动学习方法。通过利用这些强大的技术，我们不仅提高了模型的性能，还有效地克服了成本和专家注释者的稀缺性方面的局限性。值得注意的是，我们的框架在很大程度上超越了现有技术的领先水平。我们还展示了 NER 在下游关系抽取任务中的有效性。

Feb, 2024

CNN-LSTM-CRF 和词语分割联合训练实现的神经网络中文命名实体识别

本文提出了一种神经方法来解决中文命名实体识别的挑战，该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文，引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力，以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明，该方法特别适用于训练数据不足的情况下，可以有效提高中文命名实体识别的性能。

Apr, 2019

跨语言命名实体识别的增强迭代知识蒸馏

本文描述了微软在交叉语种命名实体识别中的新实践方法，使用源语种的标注数据和目标语种的无标注数据，采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。

Jun, 2021