Twitter 上跨语言情感分类的简单方法
本论文提出一种自然语言处理算法,利用混合文本中的语码切换点,用基于大型预训练多语言模型的语义相似性和人工制作的积极和消极词汇集来确定语码切换文本的极性,以实现情感分析,其准确性和 F1 分数较基准模型提高了 11.2% 和 11.64%。
Oct, 2022
社交媒体的快速发展使得我们能够分析用户意见。尽管常用语言的情感分析已经取得了显著的进展,但由于资源限制,低资源语言像阿拉伯语等仍然很少有研究。本研究探讨了 SemEval-17 和阿拉伯语情感推文数据集上的推文文本的情感分析,并研究了四种预训练语言模型以及提出了两种集成语言模型。我们的发现包括单语言模型表现出更好的性能,集成模型优于基线,而多数投票集成模型胜过英语。
Mar, 2024
本研究提出了一个基于用户评价的新型多类乌尔都数据集,旨在为乌尔都情感分析构建手动注释的数据集,并建立基准结果。使用五种不同的词库和基于规则的算法,最终实验结果表明,Flair 的准确率为 70%,优于其他测试的算法。
Jul, 2022
近年来,多模态自然语言处理引起了广泛关注,但我们需要更清晰地分析多语言环境下的多模态任务。本文通过一个简单的策划过程,将一份现有的文本 Twitter 情感数据集转化为多模态格式,从而填补了先前主要关注英语的情感分析研究的空白,并为研究界开辟了情感相关研究的新领域。此外,我们利用这个增强的数据集进行了基准实验,并报告了结果。值得注意的是,我们的评估结果显示,在单模态和多模态配置相比较时,使用一个经过情感调整的大型语言模型作为文本编码器表现出色。
Apr, 2024
本文使用多种技术,如基于词典的、机器学习和深度学习方法,对社交媒体上的评论数据进行情感分析,并提供了比较分析结果。在本研究中,我们使用了来自 Twitter、Reddit 等社交网络网站的评论等多源数据集。选择了朴素贝叶斯机器学习算法、TextBlob 词典方法和 LSTM 深度学习算法。
Dec, 2022
本文通过收集来自 MercadoLibre 网站七个国家的商品评论,建立了一个大型且平衡的数据集,研究了一个基于该数据集训练的情感分类系统在泛化到不同西班牙语领域的能力,结果表明该分类系统的泛化能力有一定可行性,但需要使用预训练和微调技术进行改进。
Mar, 2023
本文回顾近年来关于波斯语情感分析的文章,分析了 40 种方法,包括使用机器学习和深度学习的转换器和神经网络,评估了这些方法对数据集的准确性,列出了 2018 至 2022 年的数据集和其详细信息。
Nov, 2022
该研究旨在解决情感分析在不同语言中的多种语言依赖性问题,通过使用递归神经网络训练英文评论以建立一个主要用于英语的情感分析模型,并在俄语、西班牙语、土耳其语和荷兰语等其他语言中重复使用此模型来评估情绪,结果表明该方法在多语言情感分析中表现出色。
Jun, 2018
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020