LABR: 大规模阿拉伯语情感分析基准测试
本研究旨在解决对于孟加拉语资源与跨领域适应性缺乏研究的限制,因此提出一个大规模的孟加拉语电子书评论数据集, 使用各种机器学习模型分析数据,发现预训练模型比手工特征模型具有更高的性能,同时进行错误分析以提供关于在孟加拉语等欠资源语言中常见的分类错误的见解。
May, 2023
研究 Arabic 情感分析,提出了一种基于机器学习的方法和特征向量,使用人工神经网络分类器,在单词级别和文档级别进行情感分析,在单词级别获得的平均 F1-score 为 0.92,在文档级别的正类为 0.94,负类为 0.93。
May, 2022
本研究介绍了一个阿拉伯方言情感数据集(ArSenTD-LEV),包含 4,000 条推文,并提供了整体情感、情感表达方式、情感表达目标和推文主题等注释,研究结果表明这些注释可以提高基线情感分类器的性能,也确认了训练与测试领域不匹配的差距。
May, 2019
该研究介绍了 KazSAnDRA 数据集,这是首个也是最大的公开可用的哈萨克情感分析数据集,由 180,064 份来自不同来源的评论组成,包括从 1 到 5 的数值评分,提供了客户态度的定量表示。该研究还通过开发和评估四个机器学习模型,旨在实现哈萨克情感分类的自动化,包括极性分类和评分分类的培训。实验分析考虑了平衡和不平衡的情况。最成功的模型在测试集上实现了 0.81 的极性分类 F1 得分和 0.39 的评分分类得分。该数据集和优化模型以知识共享署名 4.0 国际许可(CC BY 4.0)的形式开放获取,并可通过我们的 GitHub 存储库进行下载。
Mar, 2024
本研究提供了一个经过三名母语为波斯语的人员验证的波斯语数据集(即 Pars-ABSA),并基于深度学习的一些最先进的基于方面的情感分析方法进行评估,结果显示与类似的英语最新成果相比表现出优异的表现。
Jul, 2019
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词汇数据集,这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力,还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。
Apr, 2024
本研究提出了一个基于用户评价的新型多类乌尔都数据集,旨在为乌尔都情感分析构建手动注释的数据集,并建立基准结果。使用五种不同的词库和基于规则的算法,最终实验结果表明,Flair 的准确率为 70%,优于其他测试的算法。
Jul, 2022
社交媒体的快速发展使得我们能够分析用户意见。尽管常用语言的情感分析已经取得了显著的进展,但由于资源限制,低资源语言像阿拉伯语等仍然很少有研究。本研究探讨了 SemEval-17 和阿拉伯语情感推文数据集上的推文文本的情感分析,并研究了四种预训练语言模型以及提出了两种集成语言模型。我们的发现包括单语言模型表现出更好的性能,集成模型优于基线,而多数投票集成模型胜过英语。
Mar, 2024
本文回顾近年来关于波斯语情感分析的文章,分析了 40 种方法,包括使用机器学习和深度学习的转换器和神经网络,评估了这些方法对数据集的准确性,列出了 2018 至 2022 年的数据集和其详细信息。
Nov, 2022
本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法,该语料库基于自动构建的阿尔及利亚情感词典,涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据,并且取得了较好的实验结果。
Aug, 2018