使用语言处理技术增强普什图语文本分类的单标签和多标签分析

May, 2023

使用语言处理技术增强普什图语文本分类的单标签和多标签分析

Enhancing Pashto Text Classification using Language Processing Techniques for Single And Multi-Label Analysis

Mursal Dawodi, Jawid Ahmad Baktash

TL;DR本研究的目标是建立碧斯图文自动分类系统，研究者通过使用 DistilBERT、MLP、SVM、KNN、随机森林等各种机器学习模型和文本特征提取方法对 Pashto 文本进行分类，研究表明在单标签多分类中，使用 MLP 和 TFIDF 特征提取方法可以获得 94% 的平均测试准确率，而使用预训练的语言表示模型，如 DistilBERT，可以很好地处理 Pashto 文本，但是为了得到合理的结果，还需要为特定的语言开发特定的 Tokenizer。

Abstract

text classification has become a crucial task in various fields, leading to a significant amount of research on developing automated text classification systems for national and international languages. However,

text classification automated systems pashto language machine learning models feature extraction

发现论文，激发创造

调整传统语言处理方法以进行普什图语文本分类

本研究旨在建立一个普什图语自动文本分类系统。我们建立了一个普什图语语料库，并比较了几种机器学习技术和特征提取方法，结果发现在 MLP 分类算法和 TFIDF 特征提取方法下，平均测试准确率达到了 94％。

May, 2023

使用手动和自动标注的机器学习和深度学习方法用于孟加拉语新闻分类

本文介绍了几种机器和深度学习方法，应用于孟加拉语新闻分类。这些方法包括逻辑回归、支持向量机、卷积神经网络以及词向量等，同时提出了自动标记的方法，并在孟加拉语最大的新闻分类数据集 Potrika 上评估了它们的性能。

Oct, 2022

乌兹别克语文本分类数据集和分析

本研究分析了多标签新闻分类任务的数据集创建步骤和评估技术，提供一个收集自十个不同新闻和出版网站的 15 类新闻、出版和法律文本的新文本分类优范，研究比较了从传统的词袋模型到深度学习架构的不同模型，实验结果显示 RNN 和 CNN 模型优于基于规则的模型，最佳性能 BERTbek 模型，为乌兹别克文本分类的进一步研究打下了基础。

Feb, 2023

印地文文本分类的深度学习比较

本研究旨在调查各种深度学习架构在印地语文本分类任务中的应用。本文使用了卷积神经网络（CNN）、长短时记忆网络（LSTM）、注意力机制等模型，比较了多语言预训练句子嵌入（BERT 和 LASER）和传统翻译方法的优劣，也为流行的文本分类技术提供了教程。

Jan, 2020

多语言数据分类的终身学习自然语言处理方法

本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法，该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器，可以在英语和西班牙语数据集上提高假新闻分类任务的性能。

May, 2022

文本分类算法综述

本研究讨论了文本分类算法的概述，包括不同的文本特征提取、降维方法、现有算法和技术、评估方法，并探讨了每种技术的限制和在实际问题中的应用。

Apr, 2019

Izindaba-Tindzaba：针对 Zulu 语和 Siswati 语的长文本和短文本机器学习新闻分类

这项研究旨在为南非的 isiZulu 和 Siswati 本土语言创建大规模数据集，通过使用四种分类模型和三种单词嵌入方法，分类结果表明，XGBoost、逻辑回归和 LSTM 的 Word2vec 训练表现最佳。

Jun, 2023

跨语言文本分类与识别的深度学习和嵌入可视化的比较分析

该研究通过深度学习和嵌入可视化对多语言文本分类方法进行比较研究，特别关注 FastText 和 Sentence Transformer 模型，并探索了维度对聚类的影响。研究结果显示，FastText 在二维可视化中显示出更清晰的聚类效果，取得了显著的准确性、精确率、召回率和 F1 分数，优于 Sentence Transformer 模型。该研究强调了这些技术在多语言文本分类中的有效性，并强调了使用大型多语言语料库进行嵌入训练的重要性。它为未来的研究奠定了基础，并辅助开发语言检测和分类系统。此外，研究还对多层感知机、LSTM 和卷积模型进行了比较。

Dec, 2023

一个阿姆哈拉语新闻文本分类数据集

研究介绍了一个由超过 50,000 篇新闻文章组成、分为 6 类的阿姆哈拉文本分类数据集，并提供基准性能以促进相关研究和实验的实施。

Mar, 2021

利用机器学习技术促进不发达语言的发展：乌尔都语文本检测进展

本文开发了一个带有乌尔都文本的情景图像数据集，并提出使用机器学习方法从这些图像中检测乌尔都文本的方法，包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源，并突出该领域的挑战和研究空白。

Sep, 2022