- UzMorphAnalyser: 用词尾进行乌兹别克语言的形态分析模型
该论文提出了对乌兹别克语词汇进行形态分析、寻找词干、确定词性信息的模型,经过验证和评估后,该模型在词级别的准确度超过了 91%,并且已经以基于 Web 应用程序和开源 Python 库的形式提供。
- 乌兹别克音节提取工具的设计与实现
在该研究中,我们提出了一种综合的途径来对乌兹别克语进行音节化,其中包括基于规则的技术和机器学习算法。我们的研究结果表明,这两种方法都具有高度准确性,超过了 99%。这项研究为未来在乌兹别克语及其他相关低资源土耳其语言中关于音节化及相关领域的 - 基于 TF-IDF 的乌兹别克语文本摘要
基于 TF-IDF 算法和 n-gram 方法在乌兹别克语文本摘要任务中,本研究旨在提取语义重要的部分。学校语料库的实验结果表明,该方法能够有效地从乌兹别克语文本中提取出摘要,并且在信息检索和自然语言处理等多种应用中具有潜在价值。
- UzbekTagger: 一种基于规则的乌兹别克语词性标记器
本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具,使用一种基于规则的标注器,该标注器使用 12 种标签来标注单词的词性,通过使用前缀 / 后缀剥离方法对单词进行词干处理,该工具在乌兹别克文本中标注和识别单词的词性,并且是第一次 - UzbekStemmer: 为乌兹别克语开发一种基于规则的词干提取算法
本文介绍了一种基于规则的乌兹别克语词干提取算法,该算法使用基于有限状态机的词缀剥离方法,将词缀分类为 15 个类别并设计为 FSM,最后建立一个基本 FSM,并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。
- 一种基于有限状态机的乌兹别克语规则词形还原算法的开发
构建维吾尔语词形还原算法来识别单词的本义词,其中使用了词缀数据库和词性知识以及有限状态机来移除维吾尔语中的词缀。
- 为乌兹别克语创建形态和句法标记语料库
本研究填补了低资源乌兹别克语领域机器学习模型样本不足的问题,开发了新的词性标注和句法标注标准,并提出了一个基于网络的工具来帮助标注。同时,我们共享了创建乌兹别克语语料库的第一阶段的经验结果。
- 乌兹别克语停用词检测精度:以 “学校语料库” 为例的案例研究
本文介绍了一种用于评估停用词列表质量的方法,以自动创建技术。该方法在乌兹别克语的自动生成停用词列表上进行了测试,可以应用于相似语言。
- 基于当地餐厅评论的乌兹别克情感分析
本文针对低资源约束下的乌兹别克语收集餐厅评论数据,并通过使用不同的技术,从基于逻辑回归模型,支持向量机,甚至是循环神经网络和卷积神经网络等深度学习模型进行评估的方式,提供了一些进一步的分析。 实验结果表明,在进行词干提取等预处理步骤后,该系 - 乌兹别克词缀有限状态机用于词干提取
提出一种使用有限状态机的乌兹别克语形态分析器,通过去除词缀来找到词根,而不包括任何词汇,快速分析大量的文本。
- 乌兹别克字母之间的机器音译工具
本文介绍了一种使用基于规则的和微调的方法开发出的机器音译工具,用于低资源语言乌兹别克语的三种常见脚本的转换,并支持乌兹别克语新宣布的拉丁字母表,其 Python 开源代码以及包含公共 API 的 Web 应用程序是可用的。