评估序列标注中手工特征的效用

EMNLPAug, 2018

Evaluating the Utility of Hand-crafted Features in Sequence Labelling

Minghao Wu, Fei Liu, Trevor Cohn

TL;DR通过自动化手工特征抽取方法，将手工特征与深度学习方法相结合，可以显著提高命名实体识别任务的性能并减少训练需求。

Abstract

Conventional wisdom is that hand-crafted features are redundant for deep learning models, as they already learn adequate representations of text automatically from corpora. In this work, we test this claim by proposing a new method for exploiting handcrafted features as part of a novel

deep learning named entity recognition handcrafted features auto-encoder neural crf model

发现论文，激发创造

提高神经网络命名实体识别的鲁棒性词汇特征

本文介绍一种使用神经网络方法进行实体识别的系统，主要聚焦于研究如何在建模时引入词汇特征，并通过低维向量空间嵌入和高效训练得到最佳结果，最终在公开数据集上取得了较高的 F1 分数。

Jun, 2018

将预训练语言模型与手工特征结合用于无监督词性标注

本研究提出了一个神经条件随机场自编码器模型，能够直接使用 ELMo 词汇表示并同时将手工设计特征加入到解码器中，实现无监督的 POS 标注任务，并在多语言大型数据集上取得了显著优势。

Mar, 2022

命名实体识别的神经网络结构

本文介绍基于双向 LSTM 和条件随机场，以及基于转移的方法的两种新的神经网络模型，这些模型不依赖于领域特定的知识和语言。通过使用监督语料库和未标注语料库，字符表示和无监督的学习表示，这些模型在四种语言中实现了名词实体识别的最先进性能。

Mar, 2016

深度和手工特征的本地学习用于面部表情识别

通过使用卷积神经网络自动学习的特征和由视觉单词的袋子模型计算的手工特征相结合的方法进行面部表情识别，然后使用三步的局部学习框架进行类别标签预测，得出了目前最佳结果。

Apr, 2018

双向 LSTM-CNNs-CRF 的端到端序列标注

本文提出了一种新颖的神经网络体系结构，该体系结构利用了双向 LSTM，CNN 和 CRF 的组合，自动地从单词和字符级别表示中受益。我们的系统是真正的端到端的，不需要特征工程或数据预处理，因此适用于广泛的序列标注任务。我们在两个数据集上对我们的系统进行了评估，即 Penn Treebank WSJ 语料库用于词性标注和 CoNLL 2003 语料库用于命名实体识别。我们在这两个数据集上获得了最先进的性能 - 词性标注的准确率为 97.55％，命名实体识别的 F1 值为 91.21％。

Mar, 2016

双向 LSTM-CNN 命名实体识别

本文提出了一种新颖的神经网络模型，利用混合双向 LSTM 和 CNN 架构自动检测单词和字符级特征，并提出了一种将部分词典匹配编码到神经网络中的方法。经过广泛评估，使用两个来自公开资源的词典，该系统在 CoNLL-2003 数据集上达到 91.62 的 F1 分数，在 OntoNotes 上达到 86.28 的 F1 分数，超过了其他采用重度特征工程、专有词典和丰富的实体链接信息的系统。

Nov, 2015

高度不平衡数据下适应性命名实体识别

本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构，其中嵌入向量（Glove，BERT）的融合输入被用来增强模型的泛化能力，还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明，该方法显著提高了弱类的表现结果，并且只使用了非常少量的数据集。

Mar, 2020

利用神经字符嵌入提高命名实体识别

本文介绍了一种基于 CharWNN 深度神经网络的自适应特征命名实体识别系统，使用自动学习特征实现多语种 NER 任务，证明了字符嵌入在 NER 中的有效性。试验结果表明，CharWNN 的性能优于现有最先进的系统。

May, 2015

探究神经组成句法分析的非局部特征

本文研究将非局部特征注入本地基于跨度的解析器的训练过程中，通过预测组成成分 n-gram 非局部模式并确保非局部模式与本地成分的一致性，结果显示，我们的方法在 PTB 和 CTB 上均优于自我注意解析器，在 PTB 上达到 BERT 的最新性能（95.92 F1），并在 CTB 上获得强大的性能（92.31 F1）。与基线相比，在多语言和零 - shot 跨领域设置中，我们的解析器也实现了更好或具有竞争力的性能。

Sep, 2021

仅基于词嵌入的命名实体识别

本文提出了一种基于预训练词嵌入的全无监督命名实体识别模型，使用高斯隐马尔可夫模型和深度自编码高斯混合模型进行实体跨度检测和类型预测，并基于强化学习设计实例选择器，通过神经网络消除杂乱注释，实现了无需使用任何标注词典或语料库，表现出色。

Aug, 2019