应对规范分割的低资源挑战

EMNLPOct, 2020

Tackling the Low-resource Challenge for Canonical Segmentation

Manuel Mager, Özlem Çetinoğlu, Katharina Kann

TL;DR本文探讨了在训练数据有限的情况下，如何将单词分割为标准化的语素，提出了两种新的模型：LSTM 指针生成器和带有硬单调注意力的序列到序列模型，并在德语、英语、印度尼西亚语、波波卢卡语和特佩瓦语进行了实验。结果显示，在低资源情境下，这些新颖的方法比现有方法在所有语言上的准确度都高出 11.4%。然而，在真正的低资源语言波波卢卡语和特佩瓦语中，最好的模型仅获得了 37.4% 和 28.4% 的准确度，因此我们总结出标准化分割仍然是低资源语言中的一个具有挑战性的任务。

Abstract

Canonical morphological segmentation consists of dividing words into their standardized morphemes. Here, we are interested in approaches for the task when training data is limited. We compare model performance in a simulated →

morphological segmentation low-resource setting lstm pointer-generator sequence-to-sequence model imitation learning

发现论文，激发创造

针对多合成极低资源语言的神经形态分割模型加强

本研究提出两种新型的多任务训练方法和相应的数据增强方法，应用于 Mexican polysynthetic 语言的形态分割，提高了神经基线的性能，同时探索了跨语言转移作为第三种加强神经模型的方法，表明在维持可比性甚至性能提高的同时，可以训练一个多语言模型来减少约 75% 的参数数量，将我们的形态分割数据集提供给 Mexicanero，Nahuatl，Wixarika 和 Yorem Nokki 用于未来研究。

Apr, 2018

TAMS：基于翻译的形态分割

标准词素分析是将单词分析为其组成形态素的标准（即底层）形式的过程。本文提出了一种利用先前经过训练的高资源单语言模型获得的翻译的字符级序列到序列模型来改善标准分词任务的方法，取得了在无资源情况下超越基准的效果，但在训练数据更多的情况下结果不稳定。尽管在高资源环境中使用翻译仍需进一步研究，但我们的模型在资源极度有限的情况下展现出希望。

Mar, 2024

Nguni 语系的规范和表层形态分割

本文研究了两种形态学分割方法的监督和无监督模型，并使用序列到序列模型和条件随机场对其进行训练，利用变压器技术在规范化分割上优于带有注意力的 LSTM，并使用基于特征的 CRF 优于双向 LSTM-CRF，在有监督的情况下获得 97.1％的 F1 分数，但在无监督的情况下，该模型的效果并不理想，因此我们希望高性能的监督分割模型将有助于促进发展更好的 NLP 工具。

Apr, 2021

基于形态学意识的分词在低资源神经机器翻译中的有效性

比较了基于形态学和 BPE 方法的子词切分对低资源神经机器翻译任务的影响，发现其对翻译性能影响不一，并且各自有表现最好的情况。

Mar, 2021

将神经网络中文分词视为低资源机器翻译任务

本研究利用最佳实践将低资源神经机器翻译应用于受监督的中文分词，实现低成本的模型设计并取得与其他方法相同的最新成果。

Aug, 2020

低资源形态变化的极限探究

提出一种针对低资源语言的自动词形变化生成方案，在神经网络方法、注意力机制、跨语言转移学习等方面做了改进并实现了 15% 的性能提升。发现了语言类别相似和通用表示是跨语言转移学习成功的关键因素。

Aug, 2019

多语言无监督序列分割的移植至极低资源语言

利用遮蔽音段语言模型等方法，我们通过从一系列低资源语言中进行多语言预训练的方式，将非监督序列分割性能成功地转移到了五个极低资源的玛雅语言，其中包括 K'iche' 等。在实验中，我们将多语言模型与单语言模型以及只预先训练过 Quechua 语言的模型进行比较，结果表明该多语言预先培训方法在目标数据集大小方面始终保持稳定的分割质量，甚至在 6/10 的实验设置中超过了单语言基线。

Oct, 2021

基于形态学建模的低资源神经机器翻译

在低资源环境中，提出了一种用于模拟复杂形态的框架解决方案，该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器，提高了机器翻译性能，并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术，提高了在低资源环境中的翻译性能，最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能，希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。

Apr, 2024

低资源语言的跨语言形态标注

提出了一种适用于低资源语言的模型来训练形态标记器，该模型使用 Wesabie 模型进行打标，通过在语料库中引入 POS 词性标注的元信息，将标记信息从富资源语言映射到贫资源语言，实现了跨语言知识的迁移，可以提高句法分析的效果。

Jun, 2016

跨语言低资源形态分割中基于数据驱动的模型泛化性研究

该研究旨在通过使用多种语言的数据，比较不同参数设置下的模型表现，从而证明模型通用性取决于数据集的特征而不只是数据集的大小。

Jan, 2022