使用序列解码器进行形态分析

ACLMay, 2018

Morphological analysis using a sequence decoder

Ekin Akyürek, Erenay Dayanık, Deniz Yuret

TL;DR本文介绍 Morse，一种循环编码器解码器模型，用于生成语句中每个单词的形态分析。该模型可生成单独的形态特征，表现出色且能处理少见标签和各种复杂语言。

Abstract

We introduce morse, a recurrent encoder-decoder model that produces morphological analyses of each word in a sentence. The encoder turns the relevant information about the word and its context into a fixed size v

morse encoder-decoder model morphology inflectional groups language modeling

发现论文，激发创造

使用字符序列到序列学习生成形态变化

本研究提出了一种基于神经编码器解码器模型的方法，用于生成 Morphological inflection generation 任务中给定基本形式的词汇对应的特定语言变换的变形形式，并在 7 个形态丰富语言的数据集上进行评估，获得了与现有的最先进的基于变化生成的模型相比更好或可比的结果。

Dec, 2015

双向解码框架：以形态变化为例的案例研究

本文中，我们提出了一种从外向内生成序列的解码框架，该框架通过动态规划等多种训练方法，支持多种模型结构，并在推土机 2023 转换任务上取得显著提高。

May, 2023

基于形态学建模的低资源神经机器翻译

在低资源环境中，提出了一种用于模拟复杂形态的框架解决方案，该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器，提高了机器翻译性能，并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术，提高了在低资源环境中的翻译性能，最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能，希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。

Apr, 2024

形态学很重要：多语言语言建模分析

本文通过对 145 个语言的 92 个圣经翻译及其更多的分类特征的分析，探讨了语言的屈折变化是否使得多语言语言建模更加困难，发现基于神经网络的语言建模方法可以通过采用 FST 等分词策略来进一步降低语言构型的影响。

Dec, 2020

使用显式形态表示的单模型编码器 - 解码器用于重构

提出利用神经编码器 - 解码器模型对形态学再生成的任务进行建模，进一步提出利用基于编辑树的输出自动校正方法，降低对训练数据量的依赖，实现了对低资源语言的形态学再生任务的优化。

Jun, 2016

神经机器翻译模型学到了什么关于形态学？

本文研究神经机器翻译的表示，探讨其对源语言和目标语言的理解以及对单词结构学习的影响，发现了一些关键参数对表示的影响

Apr, 2017

面向形态丰富语言的字符感知解码器

本文针对神经机器翻译系统忽略词法低层级模式的问题，提出一种字符感知解码器，通过卷积神经网络结构训练，以实现针对语言词法丰富情况下的 MT 系统翻译质量提升。实验结果表明，本文方法在 14 种不同类型的语言翻译中，能够显著提升 BLEU 得分。

Sep, 2018

神经传导学习及其拓展：极度资源匮乏情况下的形态生成

在小型训练集下，我们针对 neural seq2seq models 在 paradigm completion 的应用中性能低下提出了两种新方法：1. Paradigm transduction， 2. Source selection with high precision (SHIP)，在 52 种语言的基准数据集上，我们相比之前的技术水平在最高达 9.71% 的绝对准确率上实现了优异表现。

Sep, 2018

带半马尔可夫模型的标注形态学分割

我们提出了有标签的形态学分割，这是一种统一几个任务的形态处理的替代视角。从标注角度来看，我们还引入了一种新的形态句法标签集的层次结构。最后，我们开发了 extsc {modelname}，这是一个判别性的形态学分割系统，与之前的工作相反，它明确地建模了形态句法。我们展示了 extsc {modelname} 在六种语言的三个任务上的改进表现：（i）形态学分割，（ii）词干提取和（iii）形态学标签分类。在形态学分割上，我们的方法相对于基准线有 2-6 个 $F_1$ 的绝对改进。

Apr, 2024

针对多合成极低资源语言的神经形态分割模型加强

本研究提出两种新型的多任务训练方法和相应的数据增强方法，应用于 Mexican polysynthetic 语言的形态分割，提高了神经基线的性能，同时探索了跨语言转移作为第三种加强神经模型的方法，表明在维持可比性甚至性能提高的同时，可以训练一个多语言模型来减少约 75% 的参数数量，将我们的形态分割数据集提供给 Mexicanero，Nahuatl，Wixarika 和 Yorem Nokki 用于未来研究。

Apr, 2018