基于 LSTM-CRF 的语义标注
本文研究了基于 LSTM 模型的序列标注技术,通过引入双向 LSTM 和条件随机场 (CRF) 层提高了模型的准确性和鲁棒性,实现了对 POS、chunking 和 NER 等序列标注数据集的最先进性能。
Aug, 2015
本研究提出了一种基于双向长短期记忆递归神经网络(BLSTM-RNN)的统一标记解决方案,可应用于各种标记任务,包括词性标注、分块和命名实体识别,该方法利用从无标记文本中学习的一组独立任务特征和内部表示,并不需要特定的任务知识或复杂的特征工程,在所有这三个标记任务中获得了几乎最先进的性能。
Nov, 2015
本文使用深度学习中的长短时记忆模型和条件随机场模型,通过使用 8400 句训练语料和 97 句测试语料,研究了词性嵌入和模型结构对印尼命名实体识别的影响。结果表明,使用词性嵌入作为额外输入有助于提高识别性能,但 Softmax 和 CRF 两种模型结构都存在命名实体分类的弱点。
Sep, 2020
本文提出了一种新颖的神经网络体系结构,该体系结构利用了双向 LSTM,CNN 和 CRF 的组合,自动地从单词和字符级别表示中受益。我们的系统是真正的端到端的,不需要特征工程或数据预处理,因此适用于广泛的序列标注任务。我们在两个数据集上对我们的系统进行了评估,即 Penn Treebank WSJ 语料库用于词性标注和 CoNLL 2003 语料库用于命名实体识别。我们在这两个数据集上获得了最先进的性能 - 词性标注的准确率为 97.55%,命名实体识别的 F1 值为 91.21%。
Mar, 2016
提出一种基于层级注意力机制的标签嵌入模型,较传统的 BiLSTM-CRF 有更好的标签序列表示性能,能显著提高词性标注、实体识别和语法标记任务的标注效果并缩短训练和测试时间。
Aug, 2019
使用词嵌入的双向 LSTM 循环神经网络模型(BLSTM-RNN)在词性标注任务中表现出色,可以达到 97.40%的准确率,而且不需要使用形态学特征,同时具备与斯坦福词性标注器相当的性能。
Oct, 2015
本文提出一种基于预训练语言模型 (BERT) 的方法,能够直接利用所有句子中的所有单词的上下文信息进行文档级理解的任务,且在四个数据集中取得了最先进的结果。
Sep, 2019
本文采用双向 LSTM 和 CRF 解码结合通用词嵌入抽取患者临床记录中的概念,以达到与排名前列的系统相媲美的 2010 年 i2b2 / VA 基准标准语料库实验结果。
Oct, 2016
本文探讨了一种半监督的方法,通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务,相比其他转移学习或添加标记数据和任务特定词典的方法,在命名实体识别和块分割等任务上实现了最先进的结果。
Apr, 2017
本文介绍基于 BERT 的模型在关系抽取和语义角色标注中的应用。实验结果表明,在不使用任何外部特征的情况下,这种简单的模型可以达到最先进的性能表现,提供了未来研究的强有力基础。
Apr, 2019