神经词汇形态标注中复合标签的建模
本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注,结合双向 LSTMs 建模跨单词上下文,发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响,通过增加深度优化神经网络可显著提高标注器准确度,最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。
Jun, 2016
我们提出了有标签的形态学分割,这是一种统一几个任务的形态处理的替代视角。从标注角度来看,我们还引入了一种新的形态句法标签集的层次结构。最后,我们开发了 extsc {modelname},这是一个判别性的形态学分割系统,与之前的工作相反,它明确地建模了形态句法。我们展示了 extsc {modelname} 在六种语言的三个任务上的改进表现:(i)形态学分割,(ii)词干提取和(iii)形态学标签分类。在形态学分割上,我们的方法相对于基准线有 2-6 个 $F_1$ 的绝对改进。
Apr, 2024
本文研究如何利用转移学习的方法,通过训练 character-level recurrent neural taggers 的方式,使得高资源语言和低资源语言都能够正确预测 morphological taggings,成功地实现了多语言间的知识迁移,有效提高了准确性达 30%。
Aug, 2017
通过使用通用的基于 Bi-LSTM 的神经序列标注模型,其应用于广泛的自然语言处理任务和语言,结合从数据中提取的形态、语义和结构提示信息以进行有根据的预测,本研究在 8 个基准数据集上对其性能进行了评估,其结果在 4 个数据集上取得了最佳的表现。
Aug, 2018
本文提出了一种基于深度神经网络的序列标注方法,其包含多语言、多任务学习和交叉语言联合训练,并在包括词性标注、分块和命名实体识别等多个任务中取得了最优性能。
Mar, 2016
通过调查一个新的 NER 基准,我们研究了现代希伯来语中的 NER。 结果表明,显式建模形态的边界可以提高 NER 性能,而一个新的混合体系结构极大地超越了标准流水线,在这个流水线中形态分解严格先于 NER,为希伯来语 NER 和希伯来语形态分解任务设置了新的性能基准。
Jul, 2020
该研究提出了两个快速神经组合模型,用于句法分析,分别是二元模型和多分支模型,它们的理论复杂度是次二次的,实际复杂度较低,其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数,并以 1327.2 个句子 / 秒的速度进行解析。同时,该模型结合 XLNet,准确率接近英文句法分析的最新水平,并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank(日本)在训练和推理过程中的句法倾向和头向性。
Jun, 2021
通过将词汇学特征添加到 LSTM 和 BERT 模型中,我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现,结果显示,根据所添加的特征的质量和任务的不同,这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好,而不太适用于 CF 任务;对于 BERT,只有在高质量特征时才会对 DP 表现有所改善,而且相对于强大的多语言 BERT 模型,语言特异性 BERT 变体的改善程度较小。
Nov, 2020