使用迁移学习和联合双输入自注意力学习的印地语 / 孟加拉语情感分析
本文探讨了训练神经网络进行印地语和孟加拉语仇恨言论识别的方法,以及如何应用迁移学习来学习这些类似的语言。该实验的结果与其他更昂贵的模型相比具有可比性。此外,由于使用的训练数据相对较少,且这两种语言对我们来说几乎是完全未知的,因此该研究可推广为一个解密人类无法理解的失落或陌生语言的努力。
Jan, 2022
本文讨论了 nlpBDpatriots 参加首届与 EMNLP 合作举办的 Bangla 语言处理(BLP)研讨会上共享任务的社交媒体帖子情感分析。我们使用孟加拉语数据集,该数据集由共享任务组织者提供,并注有积极、中性和消极标签,旨在确定社交媒体内容的极性。我们最好的系统是数据增强的迁移学习方法,其 micro F1 分数达到 0.71。在参加比赛的 30 支球队中,我们的最好系统排名第 12 位。
Nov, 2023
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020
通过使用编码器和解码器技术(encoder decoder),作者们提出了一种基于机器学习的模型来检测社交媒体中孟加拉语言使用者的仇恨言论。该模型使用了 1D 卷积层来提取和编码本地特征,并使用了注意机制、LSTM 和 GRU 解码器来预测仇恨言论的类别。经过评估,最佳的预测精度达到了 77%。
Mar, 2022
本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型,用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性,实验结果表明,相较于几个基准和其他基于深度学习的提出的方法,我们的方法在真实用户混合数据上取得了最先进的结果。
Jun, 2018
本文旨在探讨利用机器学习和自然语言处理技术,通过分析包含图像和文本的 Bengali 跨媒体互动,检测恶意言论。我们准备了一个新颖的数据集,并使用双向长短时记忆网络、卷积神经网络、ResNet-152、DenseNet-161、monolingual Bangla BERT、multilingual BERT-cased/uncased 和 XLM-RoBERTa 等多种模型进行了实验,其中 XLM-RoBERTa+DenseNet-161 模型的 F1 得分最高为 0.83。
Apr, 2022
本文介绍了一种采用亚词级别表示 (Subword-LSTM) 架构进行 Hindi-English 混合代码情感分析的方法,该方法能更好地学习重要的语素的情感信息,同时在包含拼写错误的高噪声文本中表现良好,比传统的方法在数据集上的准确率提高了 4-5%,并且比可用的系统在 Hi-En 混合文本的情绪分析方面性能提高了 18%。
Nov, 2016
本论文描述了我们在 BLP 研讨会的共享任务 2 中对孟加拉社交媒体帖子进行情感分析的方法,我们通过使用多语言 BERT 模型进行实验和微调,并使用多数投票和加权集成模型,取得了优于基准模型的成绩,分数为 0.711,排名共享任务排行榜的第 10 位。
Oct, 2023
本文描述了对库尔德语数据的情感分析数据集的收集和注释,并探讨了几种经典的机器学习和神经网络技术以及数据增强的方法。我们证明了数据增强可以在难度较大的情况下实现高的 F1 分数和准确性。
Apr, 2023
本文描述了我们在 Sentimix 印地语 - 英语任务中提交的内容,涉及对代码混合文本进行情感分类,并表现出 F1 得分为 67.1%,证明简单的卷积和注意力可能会产生合理的结果。
Jul, 2020