乌尔都语基于规则的词干提取器
本文介绍了一种基于规则的乌兹别克语词干提取算法,该算法使用基于有限状态机的词缀剥离方法,将词缀分类为 15 个类别并设计为 FSM,最后建立一个基本 FSM,并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。
Oct, 2022
本文描述了将乌尔都语作为软件 API 实现的过程,包括正字法、形态学和词汇提取,并使用功能形态学工具包实现了乌尔都语的形态学。该实现能够在关键词的智能搜索、语言培训和句法基础设施等应用中复用,并演示了一小段乌尔都语句法的实现,展示了该实现的良好重用性。
Apr, 2022
本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具,使用一种基于规则的标注器,该标注器使用 12 种标签来标注单词的词性,通过使用前缀 / 后缀剥离方法对单词进行词干处理,该工具在乌兹别克文本中标注和识别单词的词性,并且是第一次公开提供乌兹别克语数据集和标注工具,也可以作为其他紧密相关土耳其语言的基础。
Jan, 2023
这篇论文首次开发了索马里语的文本词形归一化技术,为索马里语的自然语言处理任务构建了词典和基于规则的词形归一化系统,该系统在各种长度的文本上进行测试,取得了较高的准确率。
Aug, 2023
本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
Nov, 2023
本文采用基于规则的方法对英 - 旁遮普语进行机器音译,通过计算名实体和非名实体的概率以及使用统计机器翻译工具包 MOSES 计算相对频率来提高机器翻译的质量,同时进行音节划分。
Jul, 2013
该论文提出了对乌兹别克语词汇进行形态分析、寻找词干、确定词性信息的模型,经过验证和评估后,该模型在词级别的准确度超过了 91%,并且已经以基于 Web 应用程序和开源 Python 库的形式提供。
May, 2024
在该研究中,我们提出了一种综合的途径来对乌兹别克语进行音节化,其中包括基于规则的技术和机器学习算法。我们的研究结果表明,这两种方法都具有高度准确性,超过了 99%。这项研究为未来在乌兹别克语及其他相关低资源土耳其语言中关于音节化及相关领域的研究提供了宝贵的见解和建议。
Dec, 2023