通过使用通用的基于 Bi-LSTM 的神经序列标注模型,其应用于广泛的自然语言处理任务和语言,结合从数据中提取的形态、语义和结构提示信息以进行有根据的预测,本研究在 8 个基准数据集上对其性能进行了评估,其结果在 4 个数据集上取得了最佳的表现。
Aug, 2018
本研究提出了一种新颖的神经网络框架,将预先训练好的字级知识和字符感知神经语言模型相结合,利用转移学习技术实现不依赖于额外监督信号的序列标注任务,并在基准数据集上通过大量实验验证了其有效性和高效性。
Sep, 2017
本文提出了三个基于深度神经网络的序列切块模型,使得每个块都可以作为完整单元进行标注,实验结果表明,这些模型在文本切块和语义槽填充任务中均可达到最先进的性能。
Jan, 2017
该研究提出了通过自训练和元学习技术解决多个自然语言处理任务中低标注数据带来的挑战的方法,并在六个基准数据集上实验证明了其在标注数据较少的情况下具有良好的效果。
Oct, 2020
本文提出了一种新颖的神经网络体系结构,该体系结构利用了双向 LSTM,CNN 和 CRF 的组合,自动地从单词和字符级别表示中受益。我们的系统是真正的端到端的,不需要特征工程或数据预处理,因此适用于广泛的序列标注任务。我们在两个数据集上对我们的系统进行了评估,即 Penn Treebank WSJ 语料库用于词性标注和 CoNLL 2003 语料库用于命名实体识别。我们在这两个数据集上获得了最先进的性能 - 词性标注的准确率为 97.55%,命名实体识别的 F1 值为 91.21%。
Mar, 2016
本文提出了一种序列标注框架,采用辅助训练目标,并通过学习预测数据集中每个词周围的单词进行语言建模,以此学习通用的语义和语法组合模式,并在不需要额外标注或未标注数据的情况下,实现在多个序列标注任务上取得一致的性能提升。
Apr, 2017
提出了一种能够适用于多种自然语言处理任务(包括词性标注、Chunking、命名实体识别和语义角色标注)的统一神经网络架构和学习算法,该系统可以通过学习大量无标注训练数据的内部表示,避免任务特定的工程方法,并构建一个具有良好性能和最小计算要求的可用标记系统。
Mar, 2011
本文介绍使用神经网络模型进行学习者写作错误检测的实验。在 CoNLL-14 共享任务数据集上,使用双向 LSTMs 框架的模型表现优于其他参与者。最终,在公开部署的自我评估系统中集成该模型,其性能与人类注释者相当。
Jul, 2016
本文提出了一种基于神经网络序列标注器的词形标注方法,将词性标注中的词形标记视为复合标签并显式地建模其内部结构,同时在 49 种语言上表现出良好的效果。
Oct, 2018
通过评估超过 50,000 种不同的设置,我们发现网络设计选择和超参数对五个常见的语言序列标记任务,即 POS、块状、NER、实体识别和事件检测有显着影响,尤其是预先训练的词嵌入或者网路的最后一层。对于 LSTM 层数或循环单元的数量等其他参数相对不太重要。我们建议一种配置,可以在不同任务之间表现优异。
Jul, 2017