乌尔都语基于规则的词干提取器

MMOct, 2013

Rule Based Stemmer in Urdu

Vaishali Gupta, Nisheeth Joshi, Iti Mathur

TL;DR本文介绍基于规则的乌尔都语词干提取器，用于信息检索，通过人类专家的验证评估结果。

Abstract

Urdu is a combination of several languages like Arabic, Hindi, English, Turkish, Sanskrit etc. It has a complex and rich morphology. This is the reason why not much work has been done in urdu language processing.

urdu language processing morphology rule-based stemmer information retrieval human evaluation

发现论文，激发创造

UzbekStemmer: 为乌兹别克语开发一种基于规则的词干提取算法

本文介绍了一种基于规则的乌兹别克语词干提取算法，该算法使用基于有限状态机的词缀剥离方法，将词缀分类为 15 个类别并设计为 FSM，最后建立一个基本 FSM，并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。

Oct, 2022

乌尔都语形态学、正字法和词汇提取

本文描述了将乌尔都语作为软件 API 实现的过程，包括正字法、形态学和词汇提取，并使用功能形态学工具包实现了乌尔都语的形态学。该实现能够在关键词的智能搜索、语言培训和句法基础设施等应用中复用，并演示了一小段乌尔都语句法的实现，展示了该实现的良好重用性。

Apr, 2022

古吉拉特语的轻量级词干处理器

本研究介绍了一个基于规则的 Gujarati 语词干提取器的实现，探讨了 Gujarati 语言形态学的丰富性，并通过与人工专家的验证来评估了其效果。

Oct, 2012

UzbekTagger: 一种基于规则的乌兹别克语词性标记器

本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具，使用一种基于规则的标注器，该标注器使用 12 种标签来标注单词的词性，通过使用前缀 / 后缀剥离方法对单词进行词干处理，该工具在乌兹别克文本中标注和识别单词的词性，并且是第一次公开提供乌兹别克语数据集和标注工具，也可以作为其他紧密相关土耳其语言的基础。

Jan, 2023

索马里语的词典和基于规则的词汇形态还原方法

这篇论文首次开发了索马里语的文本词形归一化技术，为索马里语的自然语言处理任务构建了词典和基于规则的词形归一化系统，该系统在各种长度的文本上进行测试，取得了较高的准确率。

Aug, 2023

BanLemma: 一个以词形构造依赖规则和词典的孟加拉语词形还原工具

本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器，通过对大规模孟加拉语文本的分析，实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36％的准确性，并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集，以促进孟加拉语自然语言处理的进一步发展。

Nov, 2023

英语到旁遮普语的基于规则的音译方案

本文采用基于规则的方法对英 - 旁遮普语进行机器音译，通过计算名实体和非名实体的概率以及使用统计机器翻译工具包 MOSES 计算相对频率来提高机器翻译的质量，同时进行音节划分。

Jul, 2013

一种基于有限状态机的乌兹别克语规则词形还原算法的开发

构建维吾尔语词形还原算法来识别单词的本义词，其中使用了词缀数据库和词性知识以及有限状态机来移除维吾尔语中的词缀。

Oct, 2022

UzMorphAnalyser: 用词尾进行乌兹别克语言的形态分析模型

该论文提出了对乌兹别克语词汇进行形态分析、寻找词干、确定词性信息的模型，经过验证和评估后，该模型在词级别的准确度超过了 91%，并且已经以基于 Web 应用程序和开源 Python 库的形式提供。

May, 2024

乌兹别克音节提取工具的设计与实现

在该研究中，我们提出了一种综合的途径来对乌兹别克语进行音节化，其中包括基于规则的技术和机器学习算法。我们的研究结果表明，这两种方法都具有高度准确性，超过了 99%。这项研究为未来在乌兹别克语及其他相关低资源土耳其语言中关于音节化及相关领域的研究提供了宝贵的见解和建议。

Dec, 2023