代码混合情感和仇恨言论预测
本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型,用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性,实验结果表明,相较于几个基准和其他基于深度学习的提出的方法,我们的方法在真实用户混合数据上取得了最先进的结果。
Jun, 2018
本论文提出一种自然语言处理算法,利用混合文本中的语码切换点,用基于大型预训练多语言模型的语义相似性和人工制作的积极和消极词汇集来确定语码切换文本的极性,以实现情感分析,其准确性和 F1 分数较基准模型提高了 11.2% 和 11.64%。
Oct, 2022
本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能,并测试了不同的指标,如准确性、精确度、召回率和 F1 分数,以证明语言增强的重要性,以应用于文本情感分析、仇恨言论检测和情感检测等任务
Jun, 2023
在这篇论文中,我们通过严格的实证实验填补了多语言语言模型在混合代码环境中对恶意检测的评估不足,并观察到加入少量本地恶意样本以及仅使用本地样本对于提高混合代码恶意检测的效果以及可视化注意力对于定位表达恶意意图的词语在混合代码语境中是有帮助的。
May, 2024
本论文介绍了 SentMix-3L,一个包含三种语言(孟加拉语、英语和印地语)的代码混合情感分析数据集,并通过对 SentMix-3L 的全面评估表明,采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。
Oct, 2023
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020
本篇论文旨在探究作为一种语言现象的码代码搭配和混合情感分类在领域转移学习和多语言模型中的应用,通过测试 ERNIE 单一语言模型和对抗训练得到了强的基线和对 2020 SemEval 竞赛中印度 - 英语情感分类任务第一名的表现。
Sep, 2020
介绍了关于印地语和英语以及孟加拉语和英语的混合数据情感分析的共享任务,描述了任务、数据集、评估、基线和参与者的系统。
Mar, 2018
本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库,结合规则和监督模型,研发了自动感知分析的混合系统,以降低标注的人工工作量;同时,通过各种测量方法,对这种混合语料库的语言和情感特征进行了定量和定性的评估。
Mar, 2018
讨论多语社会中 NLP 研究的现状、局限与未来的发展。提出英汉混合语言作为案例,探究五个涉及到社会福祉的应用领域:危机管理、医疗保健、政治宣传、假新闻与仇恨言论等。同时,提出了未来多语言 NLP 应用中可能涉及到的数据集、模型和工具。
Jun, 2021