Jan, 2024

零资源跨语言词性标注

TL;DR零资源环境中的词性标注可以是一种有效的方法,当没有标记的训练数据可用时,特别适用于资源匮乏的语言。本文研究了使用预训练的多语言大型语言模型或在零资源目标语言中将源语言标签映射并训练序列标注模型两种主要技术进行词性标注。我们通过现成的对齐模块探索了后一种方法,并训练了一个隐马尔可夫模型来预测词性标签。我们在以英语为源语言,法语、德语和西班牙语为目标语言的词性标注中评估了转移学习设置。我们的结论是,零资源语言中的映射对于预测词性标签是有益的。