本文介绍了一种基于规则的乌兹别克语词干提取算法,该算法使用基于有限状态机的词缀剥离方法,将词缀分类为 15 个类别并设计为 FSM,最后建立一个基本 FSM,并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。
Oct, 2022
提出一种使用有限状态机的乌兹别克语形态分析器,通过去除词缀来找到词根,而不包括任何词汇,快速分析大量的文本。
May, 2022
本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具,使用一种基于规则的标注器,该标注器使用 12 种标签来标注单词的词性,通过使用前缀 / 后缀剥离方法对单词进行词干处理,该工具在乌兹别克文本中标注和识别单词的词性,并且是第一次公开提供乌兹别克语数据集和标注工具,也可以作为其他紧密相关土耳其语言的基础。
Jan, 2023
该论文提出了对乌兹别克语词汇进行形态分析、寻找词干、确定词性信息的模型,经过验证和评估后,该模型在词级别的准确度超过了 91%,并且已经以基于 Web 应用程序和开源 Python 库的形式提供。
May, 2024
这篇论文首次开发了索马里语的文本词形归一化技术,为索马里语的自然语言处理任务构建了词典和基于规则的词形归一化系统,该系统在各种长度的文本上进行测试,取得了较高的准确率。
Aug, 2023
本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
Nov, 2023
本文介绍了基于 Google T5 模型的波兰词形还原器,通过在不同的语境长度上运行训练,最终实现了最佳的波兰语词形还原效果。
Jul, 2022
在该研究中,我们提出了一种综合的途径来对乌兹别克语进行音节化,其中包括基于规则的技术和机器学习算法。我们的研究结果表明,这两种方法都具有高度准确性,超过了 99%。这项研究为未来在乌兹别克语及其他相关低资源土耳其语言中关于音节化及相关领域的研究提供了宝贵的见解和建议。
Dec, 2023
本研究填补了低资源乌兹别克语领域机器学习模型样本不足的问题,开发了新的词性标注和句法标注标准,并提出了一个基于网络的工具来帮助标注。同时,我们共享了创建乌兹别克语语料库的第一阶段的经验结果。
本文通过实证研究,考察了在六种不同的语言上,使用不同的形态学特征开发上下文词形还原器对下游表现的影响,并发现:(i)为词形还原器提供细粒度的形态学特征在训练时并不那么有益,即使对于词汇连接语言;(ii)实际上,现代上下文词表示似乎隐式地编码了足够的形态信息,以获得无需查看任何明确形态信号的良好上下文词形还原器;(iii)最佳的领域外词形还原器是使用简单的 UPOS 标签或者没有训练形态学的模型;(iv)目前的词形还原评估实践并不足以清晰地区分模型之间的差异。
Feb, 2023