零资源跨语言词性标注

Jan, 2024

Zero Resource Cross-Lingual Part Of Speech Tagging

Sahil Chopra

TL;DR零资源环境中的词性标注可以是一种有效的方法，当没有标记的训练数据可用时，特别适用于资源匮乏的语言。本文研究了使用预训练的多语言大型语言模型或在零资源目标语言中将源语言标签映射并训练序列标注模型两种主要技术进行词性标注。我们通过现成的对齐模块探索了后一种方法，并训练了一个隐马尔可夫模型来预测词性标签。我们在以英语为源语言，法语、德语和西班牙语为目标语言的词性标注中评估了转移学习设置。我们的结论是，零资源语言中的映射对于预测词性标签是有益的。

Abstract

Part of speech tagging in zero-resource settings can be an effective approach for low-resource languages when no labeled training data is available. Existing systems use two main techniques for POS tagging i.e. pretrained multilingual large language models(LLM) or project the source la

part-of-speech tagging zero-resource settings transfer learning alignment data pos tags

发现论文，激发创造

一个基于语境的无监督通用低资源语言词性标注器

本文描述了一种针对低资源语言的无监督词性标注方法，利用了 Brown 等人在 1992 年提出的经典聚类方法和一种解密方法实现了标注结果的有效构建，并将其应用于 Sinhalese 和 Kinyarwanda 两种极度缺乏标记训练数据的语言中，实现了较高的标注性能。此外，该方法还将集成到真正的零资源模型中，取得了可靠的效果。

Apr, 2019

零资源环境中跨语言序列标注的模型和数据传递

本文通过实验证明使用高容量多语言语言模型应用于零样本（基于模型的跨语言转移）情况下能够比基于数据转移更好地执行跨语言序列标注，这可能是由于语言使用的重要差异所致。

Oct, 2022

基于图的多语言标签传播在低资源词性标注中的应用

本文提出了一种将标签从多种高 - 低资源语言进行传递的图形标签传递方法，可与增强的情境化嵌入相结合，实现了无监督标注低资源语言中词性标注的最新技术水平。

Oct, 2022

低资源语言的跨语言形态标注

提出了一种适用于低资源语言的模型来训练形态标记器，该模型使用 Wesabie 模型进行打标，通过在语料库中引入 POS 词性标注的元信息，将标记信息从富资源语言映射到贫资源语言，实现了跨语言知识的迁移，可以提高句法分析的效果。

Jun, 2016

弱监督的词性标注器在真正的低资源语言上表现不佳

该研究使用弱监督方法训练 15 种低资源语言的最新 POS 标注器，并发现即使使用现有最佳技术，在真正的低资源语言中，该标注器仅能正确标注不到一半的单词。因此，这篇研究突出了需要新的和不同的 POS 标注方法来适应低资源语言的需求。

Apr, 2020

无平行语料的零样本跨语言迁移

通过使用预训练模型，我们提出了一种零样本跨语言转移的新方法，它能够在低资源语言上实现任务感知的双语信息对齐，并利用未标记数据进行自我训练，从而实现多种任务上的最新技术提升，无需并行语料库或翻译模型。

Oct, 2023

学习何时信任远程监督：一种用跨语言投影进行低资源词性标注的应用

本文提出一种新的序列标注方法，使用显式的去偏置层对跨语言映射的错误进行更正，通过对一个拥有金标准标注和一个拥有投影标注的语料库进行联合学习，在仅有 1000 个金标准标注的情况下，加上更丰富的平行数据，系统在 8 个低资源设置和两个真实低资源语言，马达加斯加语和基尼阿瓦达语方面等于或超过了最先进技术水平。

Jul, 2016

低资源语言中使用多语情感词典的零样本情感分析

通过使用多语种词典进行预训练，本文在低资源语言中增强了多语种语言模型的功能，在 34 种语言中进行了零样本情感分析任务，包括 6 种高 / 中资源语言，25 种低资源语言和 3 个代码混合数据集。结果显示，使用多语种词典进行预训练能够实现更好的零样本性能，而不使用句级情感数据，相比于基于英文情感数据集和大语言模型如 GPT-3.5，BLOOMZ 和 XGLM 的微调模型。这些发现适用于涉及高资源语言的未知低资源语言到代码混合场景。

Feb, 2024

一种简单而有效的方法来提高零样本跨语言迁移学习

本文提出一种无监督的跨语言嵌入转换方法，其中使用 Embedding-Push、Attention-Pull 和 Robust targets 来处理语言嵌入之间的聚类差异，以提高跨语言转换的可靠性。实验结果表明，该方法在零 - shot 跨语言文本分类任务上取得显着优于以往的工作，可以获得更好的多语言对齐。

Oct, 2022

跨语言标签投影的约束解码

零 - shot 跨语言迁移利用多语言 LLMs 已成为一种流行的学习范式，适用于低资源语言没有标记的训练数据。然而，在涉及单词和短语细粒度预测的 NLP 任务中，零 - shot 跨语言迁移学习性能远远落后于有监督的微调方法。因此，通过使用翻译和标签映射来进一步提高性能是很常见的。本文中，我们探索了一种通过限制解码进行标签映射的新方法，克服了先前提到的问题。我们的新方法不仅能保持翻译文本的质量，还具有适用于训练和测试数据的多样性。我们在两个跨语言迁移任务上进行评估，分别是命名实体识别和事件论证抽取，涵盖了 20 种语言。结果表明，我们的方法比现有的基于标记的方法具有更好的性能，并且比依赖于外部词对齐的其他标签映射方法表现更好。

Feb, 2024