低资源语言的跨语言形态标注

ACLJun, 2016

Cross-Lingual Morphological Tagging for Low-Resource Languages

Jan Buys, Jan A. Botha

TL;DR提出了一种适用于低资源语言的模型来训练形态标记器，该模型使用 Wesabie 模型进行打标，通过在语料库中引入 POS 词性标注的元信息，将标记信息从富资源语言映射到贫资源语言，实现了跨语言知识的迁移，可以提高句法分析的效果。

Abstract

morphologically rich languages often lack the annotated linguistic resources required to develop accurate natural language processing tools. We propose models suitable for training morphological taggers with rich

morphologically rich languages natural language processing tools tagging model multilingual experiments downstream performance

发现论文，激发创造

跨语种字符级神经形态标注

本文研究如何利用转移学习的方法，通过训练 character-level recurrent neural taggers 的方式，使得高资源语言和低资源语言都能够正确预测 morphological taggings，成功地实现了多语言间的知识迁移，有效提高了准确性达 30%。

Aug, 2017

理解对资源有限的神经机器翻译中的词级语言标注的影响

研究了词级语言标注对资源不足的神经机器翻译的影响，通过实验发现，当在源语言进行标注时，语法 - 语义描述标签在某些语言对中表现优于词性标签；但在目标语言进行标注时，词性标签在自动评估指标上始终优于语法 - 语义描述标签，尽管后者可改善输出的语法性。该研究提供了对此结果的详细分析。

Jan, 2024

基于形态学建模的低资源神经机器翻译

在低资源环境中，提出了一种用于模拟复杂形态的框架解决方案，该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器，提高了机器翻译性能，并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术，提高了在低资源环境中的翻译性能，最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能，希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。

Apr, 2024

神经因子图模型用于跨语言形态标记

本研究提出了一种基于神经网络潜在能力的因子条件随机场模型，可用于语言之间的跨领域形态标注技术，在低资源语言中展现出卓越的标注准确性。

May, 2018

零资源跨语言词性标注

零资源环境中的词性标注可以是一种有效的方法，当没有标记的训练数据可用时，特别适用于资源匮乏的语言。本文研究了使用预训练的多语言大型语言模型或在零资源目标语言中将源语言标签映射并训练序列标注模型两种主要技术进行词性标注。我们通过现成的对齐模块探索了后一种方法，并训练了一个隐马尔可夫模型来预测词性标签。我们在以英语为源语言，法语、德语和西班牙语为目标语言的词性标注中评估了转移学习设置。我们的结论是，零资源语言中的映射对于预测词性标签是有益的。

Jan, 2024

面向资源匮乏语言的跨语言任务特定表示学习用于文本分类

使用双向 LSTM 网络与相似度度量的对比损失函数，通过在共同空间中学习资源贫乏和资源丰富句子的表示方法，实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言（如印地语和泰卢固语）和资源丰富语言（如英语和西班牙语）进行有效分类的目标。

Jun, 2018

使用双语词典进行标注低资源语言的模型转移

本研究提出了一种新颖的基于跨语言词向量的神经网络模型，通过高覆盖的双语词典训练，利用跨语言模型转移的方法，针对低资源语言的注释预测问题提出了解决方案，并通过多种主动学习启发式方法，提升了该方法的性能。

May, 2017

多语言词性标注：两种无监督方法

通过多语言学习，并运用层次贝叶斯模型和马尔可夫蒙特卡洛采样技术，我们证明了在无监督词性标注中应用多语言学习的有效性，且在可用语言数量增加时，性能稳定提升。

Jan, 2014

学习学习资源贫乏语言的形态变化

本研究提出通过元学习的方式，以较少的语言资源解决形态学词形变化的任务。研究发现，将数据作为元参数，可以作为引导资源匮乏语言微调的强大初始化点。通过 29 个目标语言的实验，该方法表现出优异的性能，比之前提出的跨语言转移模型提高了 31.7% 的绝对精度，并且平均比之前的最优方法提高了 1.7% 的绝对准确度。

Apr, 2020

弱监督的词性标注器在真正的低资源语言上表现不佳

该研究使用弱监督方法训练 15 种低资源语言的最新 POS 标注器，并发现即使使用现有最佳技术，在真正的低资源语言中，该标注器仅能正确标注不到一半的单词。因此，这篇研究突出了需要新的和不同的 POS 标注方法来适应低资源语言的需求。

Apr, 2020