BRNNs 联合标记和词形还原处理丰富形态的语言
本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注,结合双向 LSTMs 建模跨单词上下文,发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响,通过增加深度优化神经网络可显著提高标注器准确度,最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。
Jun, 2016
LEMMING 是一个模块化的对数线性模型,它同时建模了词形还原和标注,并支持任意全局特征的整合。它可通过带有金标准标签和词元注释的语料库进行训练,无需依赖形态学词典或解析器。LEMMING 在六种语言的基于令牌的统计词形还原中创造了新的最先进表现;例如,对于捷克语的词形还原,我们将错误率从 4.05 降低了 60%,至 1.58。我们还提供实证证据表明,联合建模词法标记和词元对彼此是有益的。
May, 2024
本文介绍了一个简单的神经模型,用于词形还原和形态标记,可以达到 20 种语言的最新结果,并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。
Apr, 2019
使用词嵌入的双向 LSTM 循环神经网络模型(BLSTM-RNN)在词性标注任务中表现出色,可以达到 97.40%的准确率,而且不需要使用形态学特征,同时具备与斯坦福词性标注器相当的性能。
Oct, 2015
本文研究如何利用转移学习的方法,通过训练 character-level recurrent neural taggers 的方式,使得高资源语言和低资源语言都能够正确预测 morphological taggings,成功地实现了多语言间的知识迁移,有效提高了准确性达 30%。
Aug, 2017
本文提出了一种基于深度神经网络的序列标注方法,其包含多语言、多任务学习和交叉语言联合训练,并在包括词性标注、分块和命名实体识别等多个任务中取得了最优性能。
Mar, 2016
本研究提出了一种基于双向长短期记忆递归神经网络(BLSTM-RNN)的统一标记解决方案,可应用于各种标记任务,包括词性标注、分块和命名实体识别,该方法利用从无标记文本中学习的一组独立任务特征和内部表示,并不需要特定的任务知识或复杂的特征工程,在所有这三个标记任务中获得了几乎最先进的性能。
Nov, 2015
本研究提出了一种模型,通过联合学习 NER 和 MD 标签器来减轻需要 MD 工具的需求,并且可以在不同语言之间独立进行,实现了命名实体识别性能的提高和竞争性的形态消歧定位器表现。
Jul, 2018
本研究提出了一种新型的神经网络模型,该模型可以同时学习 POS 标记和基于图的依赖解析。该模型使用双向 LSTM 来学习两个任务共享的特征表示,从而解决了特征工程问题。该模型在 19 种语言的通用依赖关系项目上进行了广泛的实验,结果表明我们的模型优于基于神经网络的最新关于 POS 标记和基于转移的依赖解析的程序,从而取得了新的最优性能。
May, 2017
本文旨在研究对于资源贫乏的语言的快速语言注释工具的发展,我们采用递归神经网络模型实验了多种跨语言注释映射方法。我们提出了一种真正的多语言标记器方法,并通过使用平行语料库证实了其有效性和通用性。
Sep, 2016