索马里语的词典和基于规则的词汇形态还原方法

Aug, 2023

索马里语的词典和基于规则的词汇形态还原方法

Lexicon and Rule-based Word Lemmatization Approach for the Somali Language

Shafie Abdi Mohamed, Muhidin Abdullahi Mohamed

TL;DR这篇论文首次开发了索马里语的文本词形归一化技术，为索马里语的自然语言处理任务构建了词典和基于规则的词形归一化系统，该系统在各种长度的文本上进行测试，取得了较高的准确率。

Abstract

lemmatization is a Natural Language Processing (NLP) technique used to normalize text by changing morphological derivations of words to their root forms. It is used as a core pre-processing step in many nlp tasks

lemmatization somali language lexicon rule-based lemmatizer nlp tasks

发现论文，激发创造

BanLemma: 一个以词形构造依赖规则和词典的孟加拉语词形还原工具

本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器，通过对大规模孟加拉语文本的分析，实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36％的准确性，并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集，以促进孟加拉语自然语言处理的进一步发展。

Nov, 2023

关于词形信息在上下文词形还原中的作用

本文通过实证研究，考察了在六种不同的语言上，使用不同的形态学特征开发上下文词形还原器对下游表现的影响，并发现：（i）为词形还原器提供细粒度的形态学特征在训练时并不那么有益，即使对于词汇连接语言；（ii）实际上，现代上下文词表示似乎隐式地编码了足够的形态信息，以获得无需查看任何明确形态信号的良好上下文词形还原器；（iii）最佳的领域外词形还原器是使用简单的 UPOS 标签或者没有训练形态学的模型；（iv）目前的词形还原评估实践并不足以清晰地区分模型之间的差异。

Feb, 2023

一种基于有限状态机的乌兹别克语规则词形还原算法的开发

构建维吾尔语词形还原算法来识别单词的本义词，其中使用了词缀数据库和词性知识以及有限状态机来移除维吾尔语中的词缀。

Oct, 2022

当下词干化方法的比较：爱沙尼亚语的案例研究

本研究评估了三种不同的爱沙尼亚词形还原方法 —— 基于生成字符级模型、基于模式的单词级分类模型和基于规则的形态分析。根据我们的实验结果，一个明显较小的生成模型在所有基于 EstBERT 的基于模式的分类模型中一致表现更好。此外，我们观察到三种模型所产生的错误之间存在相对较小的重叠，表明使用不同方法的集成可能会带来改进。

Apr, 2024

基于语境的波兰语词形还原器

本文介绍了基于 Google T5 模型的波兰词形还原器，通过在不同的语境长度上运行训练，最终实现了最佳的波兰语词形还原效果。

Jul, 2022

乌尔都语基于规则的词干提取器

本文介绍基于规则的乌尔都语词干提取器，用于信息检索，通过人类专家的验证评估结果。

Oct, 2013

Amharic 词性标注的机器学习方法

提高阿姆哈拉语的词性标注性能，本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法，对比以往工作，明显的提高了词性标注性能。

Jan, 2020

联合符号音标标注、词形还原、规范化和细粒度形态标注

该研究使用阿拉伯语探讨了联合建模的方法，具体包括字符级别的词汇化特征和字词级别的非词汇化特征，可以更好地将模糊的语言特征解模糊，进一步提高模型的效果和词义的准确性。该方法在现代标准阿拉伯语和阿拉伯埃及话方言的翻译中都取得了相对较好的实验结果。

Oct, 2019

一种简单的联合模型，用于改善上下文神经词形还原

本文介绍了一个简单的神经模型，用于词形还原和形态标记，可以达到 20 种语言的最新结果，并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。

Apr, 2019

使用强大的拼写校正器来使塞内加尔沃洛夫语言复兴

本研究应用深度学习技术解决 Wolof 语言拼写纠错的问题，通过生成合成数据的方式减轻低资源语言没有语料库的限制，同时还探究了不同子词处理方法对模型性能的影响。

May, 2023