使用统计方法开发马拉地语词性标注器

MMOct, 2013

使用统计方法开发马拉地语词性标注器

Development of Marathi Part of Speech Tagger Using Statistical Approach

Jyoti Singh, Nisheeth Joshi, Iti Mathur

TL;DR本文介绍了一种基于统计模型的马拉地语词性标注器的开发方法，使用 Unigram、Bigram、Trigram 和 HMM 方法，以 77.38％、90.30％、91.46％和 93.82％的准确率作为评估指标，并提出了一个用于标记马拉地文本的标记集。

Abstract

Part-of-speech (POS) tagging is a process of assigning the words in a text corresponding to a particular part of speech. A fundamental version of POS tagging is the identification of words as nouns, verbs, adjectives etc. For processing natural languages, Part of Speech tagging is a prominent tool. It is one of the simplest as well as most constant and

pos tagging marathi language statistical model tagger development tagging accuracy

发现论文，激发创造

SMPOST: 用于代码混合的印度社交媒体文本的词性标注器

研究社交媒体上社会语言的使用及其对自然语言处理的影响，参考三种不同语言对的社交媒体数据，通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。

Feb, 2017

Amharic 词性标注的机器学习方法

提高阿姆哈拉语的词性标注性能，本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法，对比以往工作，明显的提高了词性标注性能。

Jan, 2020

基于统计和深度学习的奥迪亚语词性标注

本文介绍了基于条件随机场和深度学习的方法开发 Odia 词性标注器。通过实验，发现使用带字符序列特征和预训练词向量的 bi-LSTM 模型可以达到显著的最新成果。

Jul, 2022

AsPOS：使用深度学习方法的阿萨姆语词性标注器

本研究基于深度学习技术，开发了一种 Assamese 词性标注工具，通过两个阶段的模型训练，达到了 86.52% 的 F1 分数，为基于深度学习的 Assamese 词性标注的进一步研究提供了基线。

Dec, 2022

越南语词性标注器的实验研究

本研究中，我们使用了 ClearNLP 和 Stanford POS Tagger 这两个广泛使用的工具包，并开发了两个新的越南语 POS 标记器，然后将它们与三个众所周知的越南标记器 JVnTagger、vnTagger 和 RDRPOSTagger 进行比较。通过系统比较，我们发现，利用新特征集构建的越南语标记器可以在标记准确性方面胜过所有其他现有的越南标记器。此外，研究结果还表明，基于转换的标记器 RDRPOSTagger 的运行速度明显快于任何其他统计标记器。

Jun, 2022

ICON 2015 上面向混合语印度社交媒体文本的词性标注

本文描述我们在 Jadavpur 大学参加 ICON 2015 任务 - 对混合码印度社交媒体文本进行 POS 标注的实验，并开发了一种基于三元隐马尔可夫模型的工具，该模型利用字典以及其他一些单词级别的特征来增强已知和未知代币的观察概率。在受控模式下，我们的系统平均整体准确度（在所有三种语言对上取平均值）为 75.60％，这非常接近排名高于我们系统的其他两个系统（IIITH 为 76.79％，AMRITA_CEN 为 75.79％）。在不受约束的模式下，我们的系统获得了平均整体准确度为 70.65％，这也接近获得最高平均整体准确度的系统（AMRITA_CEN 为 72.85％）。

Jan, 2016

使用另一种语言进行低资源语言的词性标记（使用标记的波斯语 (Farsi) 语料库为库尔德语 (Sorani) 开发了一个 POS 标记化词典）

本论文提出了将已有的波斯语语料库转用于库尔德语的词性标注。可用于库尔德语的标注语料库现阶段非常缺乏，本方法可以利用相关资源可以帮助开发自动库尔德语标注以及 Kurdish dialect 的词性标注词典。

Jan, 2022

Colloquial Persian POS (CPPOS) Corpus：一份用于口语波斯语词性标注的新颖语料库

这篇论文介绍了一个面向口语波斯文的新语料库 CPPOS，通过使用该语料库进行训练，利用深度学习模型在波斯文的 POS 标注任务中取得比现有数据集和工具更好的性能，相较之前的数据集的改进达到了 14%。

Oct, 2023

神经网络词性标注

本研究提出并比较了基于神经网络的 Net-Tagger 与基于 HMM 以及三元标注的标注器之间的表现，证明 Net-Tagger 与三元标注的表现相当且优于 HMM-tagger。

Oct, 1994

面向特定领域的词性标注快速适应

本文介绍了一种快速适应新域的 POS 标注器的方法，该方法利用大量文本中收集的后缀信息和字形信息以增加词汇覆盖率，在生物领域的实验中表现出了与该领域中特别训练的 POS 标注器相当的结果。

Oct, 2014