Mar, 2024

KazSAnDRA: 哈萨克评论与态度情感分析数据集

TL;DR该研究介绍了 KazSAnDRA 数据集,这是首个也是最大的公开可用的哈萨克情感分析数据集,由 180,064 份来自不同来源的评论组成,包括从 1 到 5 的数值评分,提供了客户态度的定量表示。该研究还通过开发和评估四个机器学习模型,旨在实现哈萨克情感分类的自动化,包括极性分类和评分分类的培训。实验分析考虑了平衡和不平衡的情况。最成功的模型在测试集上实现了 0.81 的极性分类 F1 得分和 0.39 的评分分类得分。该数据集和优化模型以知识共享署名 4.0 国际许可(CC BY 4.0)的形式开放获取,并可通过我们的 GitHub 存储库进行下载。