May, 2023

使用语言处理技术增强普什图语文本分类的单标签和多标签分析

TL;DR本研究的目标是建立碧斯图文自动分类系统,研究者通过使用 DistilBERT、MLP、SVM、KNN、随机森林等各种机器学习模型和文本特征提取方法对 Pashto 文本进行分类,研究表明在单标签多分类中,使用 MLP 和 TFIDF 特征提取方法可以获得 94% 的平均测试准确率,而使用预训练的语言表示模型,如 DistilBERT,可以很好地处理 Pashto 文本,但是为了得到合理的结果,还需要为特定的语言开发特定的 Tokenizer。