乌兹别克语停用词检测精度：以 “学校语料库” 为例的案例研究

Sep, 2022

乌兹别克语停用词检测精度：以 “学校语料库” 为例的案例研究

Accuracy of the Uzbek stop words detection: a case study on "School corpus"

Khabibulla Madatov, Shukurla Bekchanov, Jernej Vičič

TL;DR本文介绍了一种用于评估停用词列表质量的方法，以自动创建技术。该方法在乌兹别克语的自动生成停用词列表上进行了测试，可以应用于相似语言。

Abstract

stop words are very important for information retrieval and text analysis investigation tasks of natural language processing. Current work

stop words information retrieval natural language processing uzbek language probability

发现论文，激发创造

UzbekTagger: 一种基于规则的乌兹别克语词性标记器

本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具，使用一种基于规则的标注器，该标注器使用 12 种标签来标注单词的词性，通过使用前缀 / 后缀剥离方法对单词进行词干处理，该工具在乌兹别克文本中标注和识别单词的词性，并且是第一次公开提供乌兹别克语数据集和标注工具，也可以作为其他紧密相关土耳其语言的基础。

Jan, 2023

乌兹别克文本与学生教育潜力的对应关系：以学校语料库为例的案例研究

本文使用课程语料库中 25 本教科书，通过计算 TF-IDF 分数转换为向量表示，并使用余弦相似度算法将给定的教育材料与相应班级的语料库进行比较，确定给定教育材料是否适合学生的教育潜力。

Mar, 2023

UzbekStemmer: 为乌兹别克语开发一种基于规则的词干提取算法

本文介绍了一种基于规则的乌兹别克语词干提取算法，该算法使用基于有限状态机的词缀剥离方法，将词缀分类为 15 个类别并设计为 FSM，最后建立一个基本 FSM，并创建了一个 XML 格式的词缀词典用于开发基于 FSM 的词缀提取应用程序。

Oct, 2022

为乌兹别克语创建形态和句法标记语料库

本研究填补了低资源乌兹别克语领域机器学习模型样本不足的问题，开发了新的词性标注和句法标注标准，并提出了一个基于网络的工具来帮助标注。同时，我们共享了创建乌兹别克语语料库的第一阶段的经验结果。

Oct, 2022

乌兹别克音节提取工具的设计与实现

在该研究中，我们提出了一种综合的途径来对乌兹别克语进行音节化，其中包括基于规则的技术和机器学习算法。我们的研究结果表明，这两种方法都具有高度准确性，超过了 99%。这项研究为未来在乌兹别克语及其他相关低资源土耳其语言中关于音节化及相关领域的研究提供了宝贵的见解和建议。

Dec, 2023

基于 TF-IDF 的乌兹别克语文本摘要

基于 TF-IDF 算法和 n-gram 方法在乌兹别克语文本摘要任务中，本研究旨在提取语义重要的部分。学校语料库的实验结果表明，该方法能够有效地从乌兹别克语文本中提取出摘要，并且在信息检索和自然语言处理等多种应用中具有潜在价值。

Mar, 2023

处理软件工程文档所需的停用词：它们很重要吗？

探讨在软件工程背景下，使用领域特定的停用词表是否可以提高自然语言处理中停用词去除方法的性能表现，并在相关工作的基础上复制实验了三个软件工程研究工具。结果表明，使用领域特定的停用词可以显著提高研究工具的性能，并且 17 个评估指标都显示出更好的性能。

Mar, 2023

文本分类可增强领域无关的停用词提取

该研究通过使用 MasakhaNEWS、African Stopwords Project 和 MasakhaPOS 数据集，针对九种非洲语言和法语，探讨了文本分类在自然语言处理（NLP）中简化停用词提取的作用。研究结果显示，文本分类能够有效识别领域无关的停用词，成功检测率超过 80％，但由于语言差异，某些语言的检测率较低。此外，研究还发现，尽管超过 40％的停用词在不同新闻类别中都有，但只有不到 15％的停用词是某个特定类别独有的。不常见的停用词为文本增添了深度，但它们是否被归类为停用词则取决于上下文。因此，将统计和语言方法相结合可以创建全面的停用词列表，凸显了我们的混合方法的价值。这项研究提升了非洲语言的自然语言处理，并强调了文本分类在停用词提取中的重要性。

Jan, 2024

基于当地餐厅评论的乌兹别克情感分析

本文针对低资源约束下的乌兹别克语收集餐厅评论数据，并通过使用不同的技术，从基于逻辑回归模型，支持向量机，甚至是循环神经网络和卷积神经网络等深度学习模型进行评估的方式，提供了一些进一步的分析。实验结果表明，在进行词干提取等预处理步骤后，该系统的精度提高，最终在最佳模型中达到 91％的精度结果。

May, 2022

UzMorphAnalyser: 用词尾进行乌兹别克语言的形态分析模型

该论文提出了对乌兹别克语词汇进行形态分析、寻找词干、确定词性信息的模型，经过验证和评估后，该模型在词级别的准确度超过了 91%，并且已经以基于 Web 应用程序和开源 Python 库的形式提供。

May, 2024