本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具,使用一种基于规则的标注器,该标注器使用 12 种标签来标注单词的词性,通过使用前缀 / 后缀剥离方法对单词进行词干处理,该工具在乌兹别克文本中标注和识别单词的词性,并且是第一次公开提供乌兹别克语数据集和标注工具,也可以作为其他紧密相关土耳其语言的基础。
Jan, 2023
本文使用课程语料库中 25 本教科书,通过计算 TF-IDF 分数转换为向量表示,并使用余弦相似度算法将给定的教育材料与相应班级的语料库进行比较,确定给定教育材料是否适合学生的教育潜力。
Mar, 2023
本文介绍了一种基于规则的乌兹别克语词干提取算法,该算法使用基于有限状态机的词缀剥离方法,将词缀分类为 15 个类别并设计为 FSM,最后建立一个基本 FSM,并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。
Oct, 2022
本研究填补了低资源乌兹别克语领域机器学习模型样本不足的问题,开发了新的词性标注和句法标注标准,并提出了一个基于网络的工具来帮助标注。同时,我们共享了创建乌兹别克语语料库的第一阶段的经验结果。
在该研究中,我们提出了一种综合的途径来对乌兹别克语进行音节化,其中包括基于规则的技术和机器学习算法。我们的研究结果表明,这两种方法都具有高度准确性,超过了 99%。这项研究为未来在乌兹别克语及其他相关低资源土耳其语言中关于音节化及相关领域的研究提供了宝贵的见解和建议。
Dec, 2023
基于 TF-IDF 算法和 n-gram 方法在乌兹别克语文本摘要任务中,本研究旨在提取语义重要的部分。学校语料库的实验结果表明,该方法能够有效地从乌兹别克语文本中提取出摘要,并且在信息检索和自然语言处理等多种应用中具有潜在价值。
探讨在软件工程背景下,使用领域特定的停用词表是否可以提高自然语言处理中停用词去除方法的性能表现,并在相关工作的基础上复制实验了三个软件工程研究工具。结果表明,使用领域特定的停用词可以显著提高研究工具的性能,并且 17 个评估指标都显示出更好的性能。
该研究通过使用 MasakhaNEWS、African Stopwords Project 和 MasakhaPOS 数据集,针对九种非洲语言和法语,探讨了文本分类在自然语言处理(NLP)中简化停用词提取的作用。研究结果显示,文本分类能够有效识别领域无关的停用词,成功检测率超过 80%,但由于语言差异,某些语言的检测率较低。此外,研究还发现,尽管超过 40%的停用词在不同新闻类别中都有,但只有不到 15%的停用词是某个特定类别独有的。不常见的停用词为文本增添了深度,但它们是否被归类为停用词则取决于上下文。因此,将统计和语言方法相结合可以创建全面的停用词列表,凸显了我们的混合方法的价值。这项研究提升了非洲语言的自然语言处理,并强调了文本分类在停用词提取中的重要性。
Jan, 2024
本文针对低资源约束下的乌兹别克语收集餐厅评论数据,并通过使用不同的技术,从基于逻辑回归模型,支持向量机,甚至是循环神经网络和卷积神经网络等深度学习模型进行评估的方式,提供了一些进一步的分析。 实验结果表明,在进行词干提取等预处理步骤后,该系统的精度提高,最终在最佳模型中达到 91%的精度结果。
May, 2022
该论文提出了对乌兹别克语词汇进行形态分析、寻找词干、确定词性信息的模型,经过验证和评估后,该模型在词级别的准确度超过了 91%,并且已经以基于 Web 应用程序和开源 Python 库的形式提供。
May, 2024