使用迁移学习和联合双输入自注意力学习的印地语 / 孟加拉语情感分析

Feb, 2022

使用迁移学习和联合双输入自注意力学习的印地语 / 孟加拉语情感分析

Hindi/Bengali Sentiment Analysis Using Transfer Learning and Joint Dual Input Learning with Self Attention

Shahrukh Khan, Mahnoor Shahid

TL;DR本文是在探索如何使用深度神经网络进行迁移学习和联合双输入学习，以有效地分类印地语和孟加拉语数据的情感和检测仇恨言论。我们使用 Word2Vec 单词嵌入进行训练，然后使用 BiLSTM 和自我关注来进行分类。

Abstract

sentiment analysis typically refers to using natural language processing, text analysis and computational linguistics to extract affect and emotion based information from text data. Our work explores how we can effectively use deep neural networks in →

sentiment analysis deep neural networks transfer learning hindi bengali

发现论文，激发创造

使用神经网络探索印度语、孟加拉语仇恨言论检测和迁移学习的实验

本文探讨了训练神经网络进行印地语和孟加拉语仇恨言论识别的方法，以及如何应用迁移学习来学习这些类似的语言。该实验的结果与其他更昂贵的模型相比具有可比性。此外，由于使用的训练数据相对较少，且这两种语言对我们来说几乎是完全未知的，因此该研究可推广为一个解密人类无法理解的失落或陌生语言的努力。

Jan, 2022

nlpBDpatriots 在 BLP-2023 任务 2 中的应用：孟加拉情感分析的迁移学习方法

本文讨论了 nlpBDpatriots 参加首届与 EMNLP 合作举办的 Bangla 语言处理（BLP）研讨会上共享任务的社交媒体帖子情感分析。我们使用孟加拉语数据集，该数据集由共享任务组织者提供，并注有积极、中性和消极标签，旨在确定社交媒体内容的极性。我们最好的系统是数据增强的迁移学习方法，其 micro F1 分数达到 0.71。在参加比赛的 30 支球队中，我们的最好系统排名第 12 位。

Nov, 2023

使用变形金刚和多任务学习识别混合代码社交媒体文本中的情感 - 在 SemEval-2020 任务 9 中的 UPB

本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统，用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案，我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现，平均 F1 得分为 0.6850，对于西班牙语 - 英语任务，我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064，排名团队第 17 位 (29 个参赛者中).

Sep, 2020

利用注意力机制循环神经网络在社交媒体上检测孟加拉仇恨言论

通过使用编码器和解码器技术（encoder decoder），作者们提出了一种基于机器学习的模型来检测社交媒体中孟加拉语言使用者的仇恨言论。该模型使用了 1D 卷积层来提取和编码本地特征，并使用了注意机制、LSTM 和 GRU 解码器来预测仇恨言论的类别。经过评估，最佳的预测精度达到了 77%。

Mar, 2022

一种用于印地语 - 英语混合编码数据情感分析的集成模型

本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型，用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性，实验结果表明，相较于几个基准和其他基于深度学习的提出的方法，我们的方法在真实用户混合数据上取得了最先进的结果。

Jun, 2018

孟加拉模因和文本的多模态仇恨言论检测

本文旨在探讨利用机器学习和自然语言处理技术，通过分析包含图像和文本的 Bengali 跨媒体互动，检测恶意言论。我们准备了一个新颖的数据集，并使用双向长短时记忆网络、卷积神经网络、ResNet-152、DenseNet-161、monolingual Bangla BERT、multilingual BERT-cased/uncased 和 XLM-RoBERTa 等多种模型进行了实验，其中 XLM-RoBERTa+DenseNet-161 模型的 F1 得分最高为 0.83。

Apr, 2022

面向印地语 - 英语代码混合文本情感分析的子词级组合研究

本文介绍了一种采用亚词级别表示 (Subword-LSTM) 架构进行 Hindi-English 混合代码情感分析的方法，该方法能更好地学习重要的语素的情感信息，同时在包含拼写错误的高噪声文本中表现良好，比传统的方法在数据集上的准确率提高了 4-5％，并且比可用的系统在 Hi-En 混合文本的情绪分析方面性能提高了 18％。

Nov, 2016

RSM-NLP 在 BLP-2023 任务 2 中：使用加权和多数投票的精调 Transformer 进行孟加拉情感分析

本论文描述了我们在 BLP 研讨会的共享任务 2 中对孟加拉社交媒体帖子进行情感分析的方法，我们通过使用多语言 BERT 模型进行实验和微调，并使用多数投票和加权集成模型，取得了优于基准模型的成绩，分数为 0.711，排名共享任务排行榜的第 10 位。

Oct, 2023

低资源情感分析的迁移学习

本文描述了对库尔德语数据的情感分析数据集的收集和注释，并探讨了几种经典的机器学习和神经网络技术以及数据增强的方法。我们证明了数据增强可以在难度较大的情况下实现高的 F1 分数和准确性。

Apr, 2023

SemEval-2020 Task 9 中的 HCMS：一种用于代码混合文本情感分析的神经网络方法

本文描述了我们在 Sentimix 印地语 - 英语任务中提交的内容，涉及对代码混合文本进行情感分类，并表现出 F1 得分为 67.1％，证明简单的卷积和注意力可能会产生合理的结果。

Jul, 2020