乌兹别克语文本分类数据集和分析

Feb, 2023

乌兹别克语文本分类数据集和分析

Text classification dataset and analysis for Uzbek language

Elmurod Kuriyozov, Ulugbek Salaev, Sanatbek Matlatipov, Gayrat Matlatipov

TL;DR本研究分析了多标签新闻分类任务的数据集创建步骤和评估技术，提供一个收集自十个不同新闻和出版网站的 15 类新闻、出版和法律文本的新文本分类优范，研究比较了从传统的词袋模型到深度学习架构的不同模型，实验结果显示 RNN 和 CNN 模型优于基于规则的模型，最佳性能 BERTbek 模型，为乌兹别克文本分类的进一步研究打下了基础。

Abstract

text classification is an important task in natural language processing (NLP), where the goal is to categorize text data into predefined classes. In this study, we analyse the dataset creation steps and

text classification natural language processing multi-label news categorization evaluation techniques uzbek

发现论文，激发创造

基于当地餐厅评论的乌兹别克情感分析

本文针对低资源约束下的乌兹别克语收集餐厅评论数据，并通过使用不同的技术，从基于逻辑回归模型，支持向量机，甚至是循环神经网络和卷积神经网络等深度学习模型进行评估的方式，提供了一些进一步的分析。实验结果表明，在进行词干提取等预处理步骤后，该系统的精度提高，最终在最佳模型中达到 91％的精度结果。

May, 2022

印地文文本分类的深度学习比较

本研究旨在调查各种深度学习架构在印地语文本分类任务中的应用。本文使用了卷积神经网络（CNN）、长短时记忆网络（LSTM）、注意力机制等模型，比较了多语言预训练句子嵌入（BERT 和 LASER）和传统翻译方法的优劣，也为流行的文本分类技术提供了教程。

Jan, 2020

用于分类捷克新闻文本的数据集和强大基准线

通过 CZEch~NEws~Classification~dataset 对 Czech 自然语言处理进行评估，发现语言特定的预训练编码器分析优于可选的大规模生成语言模型，并定义了四个分类任务：新闻来源、新闻类别、作者性别推断和星期几。

Jul, 2023

使用手动和自动标注的机器学习和深度学习方法用于孟加拉语新闻分类

本文介绍了几种机器和深度学习方法，应用于孟加拉语新闻分类。这些方法包括逻辑回归、支持向量机、卷积神经网络以及词向量等，同时提出了自动标记的方法，并在孟加拉语最大的新闻分类数据集 Potrika 上评估了它们的性能。

Oct, 2022

调整传统语言处理方法以进行普什图语文本分类

本研究旨在建立一个普什图语自动文本分类系统。我们建立了一个普什图语语料库，并比较了几种机器学习技术和特征提取方法，结果发现在 MLP 分类算法和 TFIDF 特征提取方法下，平均测试准确率达到了 94％。

May, 2023

文本卷积神经网络在自然语言处理和系统推荐之间的全面实现

本文分析了深度学习在自然语言处理三个核心任务（文本表示、词序建模和知识表示）中的应用现状，探讨了在文本分类背景下自然语言处理所取得的改进和协同效应，同时考虑了文本生成、文本分类和语义解析中对抗技术所带来的挑战，通过对文本分类任务的经验研究，证明了交互式集成训练的有效性，特别是与 TextCNN 结合，凸显了这些进展对文本分类增强的重要性。

Mar, 2024

使用语言处理技术增强普什图语文本分类的单标签和多标签分析

本研究的目标是建立碧斯图文自动分类系统，研究者通过使用 DistilBERT、MLP、SVM、KNN、随机森林等各种机器学习模型和文本特征提取方法对 Pashto 文本进行分类，研究表明在单标签多分类中，使用 MLP 和 TFIDF 特征提取方法可以获得 94% 的平均测试准确率，而使用预训练的语言表示模型，如 DistilBERT，可以很好地处理 Pashto 文本，但是为了得到合理的结果，还需要为特定的语言开发特定的 Tokenizer。

May, 2023

基于多标签的吉尔吉斯语主题分类评估

我们提供了一个针对柯尔克孜语的主题分类的新公共基准，介绍了一个基于来自新闻网站 24.KG 的收集和注释数据的数据集，并提出了多标记设置下新闻分类的几个基准模型。我们训练和评估了经典统计模型和神经模型，报告了分数，讨论了结果，并提出了未来工作的方向。

Aug, 2023

乌克兰文本分类：跨语言知识迁移方法的探索

我们利用 NLP 的最新进展，探索跨语言知识转移方法，避免手动数据整理，以改善 NLP 文本分类领域中各种语言之间数据可用性的不平衡问题，并在三个文本分类任务上进行测试，提供最佳设置的 “配方”。

Apr, 2024

SLCNN：用于文本分类的句子级卷积神经网络

本文研究了使用卷积神经网络的文本分类的新基准模型，在这些模型中，将文档作为三维张量表示进行输入，从而实现了句子级分析，经实验证明该模型在长文档特别表现良好。

Jan, 2023