迈向标准化和更准确的印度尼西亚词性标注

Sep, 2018

迈向标准化和更准确的印度尼西亚词性标注

Toward a Standardized and More Accurate Indonesian Part-of-Speech Tagging

Kemal Kurniawan, Alham Fikri Aji

TL;DR本文探讨了印度尼西亚文本的词性标注。我们使用基于规则、CRF 和神经网络的模型进行试验，并在 IDN Tagged Corpus 上对其进行评估，最终用递归神经网络取得了 97.47 的最优性能。同时，我们还公开了我们使用的数据集以供未来的研究使用。

Abstract

Previous work in indonesian part-of-speech (POS) tagging are hard to compare as they are not evaluated on a common dataset. Furthermore, in spite of the success of neural network models for English →

indonesian pos tagging neural network-based models idn tagged corpus dataset

发现论文，激发创造

探索使用词性标注嵌入的 Bi-LSTM 和 CRF 在印尼命名实体标记中的应用

本文使用深度学习中的长短时记忆模型和条件随机场模型，通过使用 8400 句训练语料和 97 句测试语料，研究了词性嵌入和模型结构对印尼命名实体识别的影响。结果表明，使用词性嵌入作为额外输入有助于提高识别性能，但 Softmax 和 CRF 两种模型结构都存在命名实体分类的弱点。

Sep, 2020

2020 云杉杯：低资源语言词性标注任务概述

本研究探讨了不同词性（POS）标注方法的评估框架，并在印度尼西亚语和老挝语的数据集上使用基于特征的和神经网络的方法进行 POS 标注，结果表明神经序列标记模型显着优于经典基于特征的方法和基于规则的方法，其中在印度尼西亚语数据集上的最佳表现达到了 95.82％，在老挝语数据集上为 93.03％。

Apr, 2022

基于统计和深度学习的奥迪亚语词性标注

本文介绍了基于条件随机场和深度学习的方法开发 Odia 词性标注器。通过实验，发现使用带字符序列特征和预训练词向量的 bi-LSTM 模型可以达到显著的最新成果。

Jul, 2022

越南语词性标注器的实验研究

本研究中，我们使用了 ClearNLP 和 Stanford POS Tagger 这两个广泛使用的工具包，并开发了两个新的越南语 POS 标记器，然后将它们与三个众所周知的越南标记器 JVnTagger、vnTagger 和 RDRPOSTagger 进行比较。通过系统比较，我们发现，利用新特征集构建的越南语标记器可以在标记准确性方面胜过所有其他现有的越南标记器。此外，研究结果还表明，基于转换的标记器 RDRPOSTagger 的运行速度明显快于任何其他统计标记器。

Jun, 2022

Amharic 词性标注的机器学习方法

提高阿姆哈拉语的词性标注性能，本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法，对比以往工作，明显的提高了词性标注性能。

Jan, 2020

神经网络词性标注

本研究提出并比较了基于神经网络的 Net-Tagger 与基于 HMM 以及三元标注的标注器之间的表现，证明 Net-Tagger 与三元标注的表现相当且优于 HMM-tagger。

Oct, 1994

越南语词汇分割、词性标注和依存句法分析的神经联合模型

本文提出了一个新的多任务学习模型，用于联合越南语词语分割、词性标注和依存句法分析，并在越南基准数据集上进行了实验，结果表明本模型具有最先进或竞争性的表现。

Dec, 2018

AsPOS：使用深度学习方法的阿萨姆语词性标注器

本研究基于深度学习技术，开发了一种 Assamese 词性标注工具，通过两个阶段的模型训练，达到了 86.52% 的 F1 分数，为基于深度学习的 Assamese 词性标注的进一步研究提供了基线。

Dec, 2022

联合词性标注和依存关系分析的改进神经网络模型

本文提出了一种新的神经网络模型，用于联合部分词性标注和依赖解析，将 BiLSTM 标记组件结合到 BIST 依赖解析器中，可对英语 Penn 语料库进行联合学习，模型在 LUS 和 UAS 评分上分别达到 94.51% 和 92.87%，并在多个评测数据集上都取得了最佳表现。

Jul, 2018

SMPOST: 用于代码混合的印度社交媒体文本的词性标注器

研究社交媒体上社会语言的使用及其对自然语言处理的影响，参考三种不同语言对的社交媒体数据，通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。

Feb, 2017