BRNNs 联合标记和词形还原处理丰富形态的语言

EMNLPAug, 2018

BRNNs 联合标记和词形还原处理丰富形态的语言

LemmaTag: Jointly Tagging and Lemmatizing for Morphologically-Rich Languages with BRNNs

Daniel Kondratyuk, Tomáš Gavenčiak, Milan Straka, Jan Hajič

TL;DR通过使用字符级和词级嵌入，带有双向 RNN 的 LemmaTag 特征较少的神经网络架构，共同为句子生成词性标记和词素。该模型在捷克语，德语和阿拉伯语的词性标记和词素化方面的准确性超过了最先进的水平。

Abstract

We present LemmaTag, a featureless neural network architecture that jointly generates part-of-speech tags and lemmas for sentences by using bidirectional rnns with →

neural network architecture part-of-speech tagging lemmatization rnns character-level

发现论文，激发创造

基于字符的神经元形态标注方法用于形态丰富语言

本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注，结合双向 LSTMs 建模跨单词上下文，发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响，通过增加深度优化神经网络可显著提高标注器准确度，最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。

Jun, 2016

用 LEMMING 实现联合词形还原和词形标注

LEMMING 是一个模块化的对数线性模型，它同时建模了词形还原和标注，并支持任意全局特征的整合。它可通过带有金标准标签和词元注释的语料库进行训练，无需依赖形态学词典或解析器。LEMMING 在六种语言的基于令牌的统计词形还原中创造了新的最先进表现；例如，对于捷克语的词形还原，我们将错误率从 4.05 降低了 60%，至 1.58。我们还提供实证证据表明，联合建模词法标记和词元对彼此是有益的。

May, 2024

一种简单的联合模型，用于改善上下文神经词形还原

本文介绍了一个简单的神经模型，用于词形还原和形态标记，可以达到 20 种语言的最新结果，并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。

Apr, 2019

双向长短时记忆循环神经网络进行词性标注

使用词嵌入的双向 LSTM 循环神经网络模型（BLSTM-RNN）在词性标注任务中表现出色，可以达到 97.40％的准确率，而且不需要使用形态学特征，同时具备与斯坦福词性标注器相当的性能。

Oct, 2015

跨语种字符级神经形态标注

本文研究如何利用转移学习的方法，通过训练 character-level recurrent neural taggers 的方式，使得高资源语言和低资源语言都能够正确预测 morphological taggings，成功地实现了多语言间的知识迁移，有效提高了准确性达 30%。

Aug, 2017

从零开始的跨语言多任务序列标记

本文提出了一种基于深度神经网络的序列标注方法，其包含多语言、多任务学习和交叉语言联合训练，并在包括词性标注、分块和命名实体识别等多个任务中取得了最优性能。

Mar, 2016

一个统一的标注解决方案：使用词嵌入的双向 LSTM 递归神经网络

本研究提出了一种基于双向长短期记忆递归神经网络（BLSTM-RNN）的统一标记解决方案，可应用于各种标记任务，包括词性标注、分块和命名实体识别，该方法利用从无标记文本中学习的一组独立任务特征和内部表示，并不需要特定的任务知识或复杂的特征工程，在所有这三个标记任务中获得了几乎最先进的性能。

Nov, 2015

通过联合学习歧义形态标记来提升命名实体识别

本研究提出了一种模型，通过联合学习 NER 和 MD 标签器来减轻需要 MD 工具的需求，并且可以在不同语言之间独立进行，实现了命名实体识别性能的提高和竞争性的形态消歧定位器表现。

Jul, 2018

联合词性标注和基于图结构的依存句法分析的新型神经网络模型

本研究提出了一种新型的神经网络模型，该模型可以同时学习 POS 标记和基于图的依赖解析。该模型使用双向 LSTM 来学习两个任务共享的特征表示，从而解决了特征工程问题。该模型在 19 种语言的通用依赖关系项目上进行了广泛的实验，结果表明我们的模型优于基于神经网络的最新关于 POS 标记和基于转移的依赖解析的程序，从而取得了新的最优性能。

May, 2017

使用双向递归神经网络引导多语言文本分析工具

本文旨在研究对于资源贫乏的语言的快速语言注释工具的发展，我们采用递归神经网络模型实验了多种跨语言注释映射方法。我们提出了一种真正的多语言标记器方法，并通过使用平行语料库证实了其有效性和通用性。

Sep, 2016