Feb, 2023

乌兹别克语文本分类数据集和分析

TL;DR本研究分析了多标签新闻分类任务的数据集创建步骤和评估技术,提供一个收集自十个不同新闻和出版网站的 15 类新闻、出版和法律文本的新文本分类优范,研究比较了从传统的词袋模型到深度学习架构的不同模型,实验结果显示 RNN 和 CNN 模型优于基于规则的模型,最佳性能 BERTbek 模型,为乌兹别克文本分类的进一步研究打下了基础。