神经词汇形态标注中复合标签的建模

Oct, 2018

神经词汇形态标注中复合标签的建模

Modeling Composite Labels for Neural Morphological Tagging

Alexander Tkachenko, Kairit Sirts

TL;DR本文提出了一种基于神经网络序列标注器的词形标注方法，将词性标注中的词形标记视为复合标签并显式地建模其内部结构，同时在 49 种语言上表现出良好的效果。

Abstract

Neural morphological tagging has been regarded as an extension to POS tagging task, treating each morphological tag as a monolithic label and ignoring its internal structure. We propose to view morphological tags as composite labels and explicitly model their internal structure in a

neural sequence tagger morphological tagging crf neural architectures morphological category values

发现论文，激发创造

基于字符的神经元形态标注方法用于形态丰富语言

本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注，结合双向 LSTMs 建模跨单词上下文，发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响，通过增加深度优化神经网络可显著提高标注器准确度，最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。

Jun, 2016

带半马尔可夫模型的标注形态学分割

我们提出了有标签的形态学分割，这是一种统一几个任务的形态处理的替代视角。从标注角度来看，我们还引入了一种新的形态句法标签集的层次结构。最后，我们开发了 extsc {modelname}，这是一个判别性的形态学分割系统，与之前的工作相反，它明确地建模了形态句法。我们展示了 extsc {modelname} 在六种语言的三个任务上的改进表现：（i）形态学分割，（ii）词干提取和（iii）形态学标签分类。在形态学分割上，我们的方法相对于基准线有 2-6 个 $F_1$ 的绝对改进。

Apr, 2024

跨语种字符级神经形态标注

本文研究如何利用转移学习的方法，通过训练 character-level recurrent neural taggers 的方式，使得高资源语言和低资源语言都能够正确预测 morphological taggings，成功地实现了多语言间的知识迁移，有效提高了准确性达 30%。

Aug, 2017

神经因子图模型用于跨语言形态标记

本研究提出了一种基于神经网络潜在能力的因子条件随机场模型，可用于语言之间的跨领域形态标注技术，在低资源语言中展现出卓越的标注准确性。

May, 2018

神经机器翻译模型学到了什么关于形态学？

本文研究神经机器翻译的表示，探讨其对源语言和目标语言的理解以及对单词结构学习的影响，发现了一些关键参数对表示的影响

Apr, 2017

序列标注：实用方法

通过使用通用的基于 Bi-LSTM 的神经序列标注模型，其应用于广泛的自然语言处理任务和语言，结合从数据中提取的形态、语义和结构提示信息以进行有根据的预测，本研究在 8 个基准数据集上对其性能进行了评估，其结果在 4 个数据集上取得了最佳的表现。

Aug, 2018

从零开始的跨语言多任务序列标记

本文提出了一种基于深度神经网络的序列标注方法，其包含多语言、多任务学习和交叉语言联合训练，并在包括词性标注、分块和命名实体识别等多个任务中取得了最优性能。

Mar, 2016

命名实体和形态学的神经建模 (NEMO^2)

通过调查一个新的 NER 基准，我们研究了现代希伯来语中的 NER。结果表明，显式建模形态的边界可以提高 NER 性能，而一个新的混合体系结构极大地超越了标准流水线，在这个流水线中形态分解严格先于 NER，为希伯来语 NER 和希伯来语形态分解任务设置了新的性能基准。

Jul, 2020

神经组合成分解析

该研究提出了两个快速神经组合模型，用于句法分析，分别是二元模型和多分支模型，它们的理论复杂度是次二次的，实际复杂度较低，其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数，并以 1327.2 个句子 / 秒的速度进行解析。同时，该模型结合 XLNet，准确率接近英文句法分析的最新水平，并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank（日本）在训练和推理过程中的句法倾向和头向性。

Jun, 2021

利用形态信息增强深度神经网络

通过将词汇学特征添加到 LSTM 和 BERT 模型中，我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现，结果显示，根据所添加的特征的质量和任务的不同，这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好，而不太适用于 CF 任务；对于 BERT，只有在高质量特征时才会对 DP 表现有所改善，而且相对于强大的多语言 BERT 模型，语言特异性 BERT 变体的改善程度较小。

Nov, 2020