2020 云杉杯：低资源语言词性标注任务概述

Apr, 2022

2020 云杉杯：低资源语言词性标注任务概述

Yunshan Cup 2020: Overview of the Part-of-Speech Tagging Task for Low-resourced Languages

Yingwen Fu, Jinyi Chen, Nankai Lin, Xixuan Huang, Xinying Qiu...

TL;DR本研究探讨了不同词性（POS）标注方法的评估框架，并在印度尼西亚语和老挝语的数据集上使用基于特征的和神经网络的方法进行 POS 标注，结果表明神经序列标记模型显着优于经典基于特征的方法和基于规则的方法，其中在印度尼西亚语数据集上的最佳表现达到了 95.82％，在老挝语数据集上为 93.03％。

Abstract

The Yunshan Cup 2020 track focused on creating a framework for evaluating different methods of part-of-speech (POS). There were two tasks for this track: (1) pos tagging for the →

part-of-speech pos tagging indonesian language lao tagging neural sequence labeling

发现论文，激发创造

迈向标准化和更准确的印度尼西亚词性标注

本文探讨了印度尼西亚文本的词性标注。我们使用基于规则、CRF 和神经网络的模型进行试验，并在 IDN Tagged Corpus 上对其进行评估，最终用递归神经网络取得了 97.47 的最优性能。同时，我们还公开了我们使用的数据集以供未来的研究使用。

Sep, 2018

一个基于语境的无监督通用低资源语言词性标注器

本文描述了一种针对低资源语言的无监督词性标注方法，利用了 Brown 等人在 1992 年提出的经典聚类方法和一种解密方法实现了标注结果的有效构建，并将其应用于 Sinhalese 和 Kinyarwanda 两种极度缺乏标记训练数据的语言中，实现了较高的标注性能。此外，该方法还将集成到真正的零资源模型中，取得了可靠的效果。

Apr, 2019

MasakhaPOS: 面向具有语言学多样性的非洲语言的词性标注

本文提出了 MasakhaPOS 数据集，并利用条件随机场、多语言预训练语言模型、跨语言传递模型以及交叉语言参数高效微调等方法来解决非常规非洲语言的词性标注问题。实验结果表明，选择最佳的传递语言可显著提高目标语言的 POS 标注性能，特别是结合跨语言参数高效微调方法时。关键是，从与目标语言匹配的语言传递知识似乎对未见过的语言的 POS 标记更有效。

May, 2023

越南语词性标注器的实验研究

本研究中，我们使用了 ClearNLP 和 Stanford POS Tagger 这两个广泛使用的工具包，并开发了两个新的越南语 POS 标记器，然后将它们与三个众所周知的越南标记器 JVnTagger、vnTagger 和 RDRPOSTagger 进行比较。通过系统比较，我们发现，利用新特征集构建的越南语标记器可以在标记准确性方面胜过所有其他现有的越南标记器。此外，研究结果还表明，基于转换的标记器 RDRPOSTagger 的运行速度明显快于任何其他统计标记器。

Jun, 2022

UzbekTagger: 一种基于规则的乌兹别克语词性标记器

本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具，使用一种基于规则的标注器，该标注器使用 12 种标签来标注单词的词性，通过使用前缀 / 后缀剥离方法对单词进行词干处理，该工具在乌兹别克文本中标注和识别单词的词性，并且是第一次公开提供乌兹别克语数据集和标注工具，也可以作为其他紧密相关土耳其语言的基础。

Jan, 2023

零资源跨语言词性标注

零资源环境中的词性标注可以是一种有效的方法，当没有标记的训练数据可用时，特别适用于资源匮乏的语言。本文研究了使用预训练的多语言大型语言模型或在零资源目标语言中将源语言标签映射并训练序列标注模型两种主要技术进行词性标注。我们通过现成的对齐模块探索了后一种方法，并训练了一个隐马尔可夫模型来预测词性标签。我们在以英语为源语言，法语、德语和西班牙语为目标语言的词性标注中评估了转移学习设置。我们的结论是，零资源语言中的映射对于预测词性标签是有益的。

Jan, 2024

AsPOS：使用深度学习方法的阿萨姆语词性标注器

本研究基于深度学习技术，开发了一种 Assamese 词性标注工具，通过两个阶段的模型训练，达到了 86.52% 的 F1 分数，为基于深度学习的 Assamese 词性标注的进一步研究提供了基线。

Dec, 2022

弱监督的词性标注器在真正的低资源语言上表现不佳

该研究使用弱监督方法训练 15 种低资源语言的最新 POS 标注器，并发现即使使用现有最佳技术，在真正的低资源语言中，该标注器仅能正确标注不到一半的单词。因此，这篇研究突出了需要新的和不同的 POS 标注方法来适应低资源语言的需求。

Apr, 2020

从分词到词性标注 - 越南语

本文比较了越南语标注未分割文本的两种策略：管道策略和联合策略，并且在特征模型和神经网络模型上进行了比较。经过实验证明，使用管道策略和特征模型时，能更好地识别未分割文本中的词性标记。

Nov, 2017

Amharic 词性标注的机器学习方法

提高阿姆哈拉语的词性标注性能，本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法，对比以往工作，明显的提高了词性标注性能。

Jan, 2020