代码混合情感和仇恨言论预测

May, 2024

Code-mixed Sentiment and Hate-speech Prediction

Anjali Yadav, Tanya Garg, Matej Klemen, Matej Ulcar, Basant Agarwal...

TL;DR研究发现，针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳，而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务，这些模型在混合编码数据上的表现稍微优于非混合编码数据。

Abstract

code-mixed discourse combines multiple languages in a single text. It is commonly used in informal discourse in countries with several official languages, but also in many other countries in combination with English or neighboring languages. As recently large →

code-mixed discourse language models bilingual models multilingual models social media texts

发现论文，激发创造

一种用于印地语 - 英语混合编码数据情感分析的集成模型

本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型，用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性，实验结果表明，相较于几个基准和其他基于深度学习的提出的方法，我们的方法在真实用户混合数据上取得了最先进的结果。

Jun, 2018

使用预训练多语言嵌入和分词技术的混合语种文本情感分类

本论文提出一种自然语言处理算法，利用混合文本中的语码切换点，用基于大型预训练多语言模型的语义相似性和人工制作的积极和消极词汇集来确定语码切换文本的极性，以实现情感分析，其准确性和 F1 分数较基准模型提高了 11.2% 和 11.64%。

Oct, 2022

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

通过本地样本混合改善混合语言仇恨检测：印地语 - 英语混合场景的案例研究

在这篇论文中，我们通过严格的实证实验填补了多语言语言模型在混合代码环境中对恶意检测的评估不足，并观察到加入少量本地恶意样本以及仅使用本地样本对于提高混合代码恶意检测的效果以及可视化注意力对于定位表达恶意意图的词语在混合代码语境中是有帮助的。

May, 2024

SentMix-3L: 面向情感分析的孟加拉 - 英语 - 印地语混合代码数据集

本论文介绍了 SentMix-3L，一个包含三种语言（孟加拉语、英语和印地语）的代码混合情感分析数据集，并通过对 SentMix-3L 的全面评估表明，采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。

Oct, 2023

使用变形金刚和多任务学习识别混合代码社交媒体文本中的情感 - 在 SemEval-2020 任务 9 中的 UPB

本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统，用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案，我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现，平均 F1 得分为 0.6850，对于西班牙语 - 英语任务，我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064，排名团队第 17 位 (29 个参赛者中).

Sep, 2020

kk2018 参加 SemEval-2020 任务 9：针对混合编码的情感分类进行对抗性训练

本篇论文旨在探究作为一种语言现象的码代码搭配和混合情感分类在领域转移学习和多语言模型中的应用，通过测试 ERNIE 单一语言模型和对抗训练得到了强的基线和对 2020 SemEval 竞赛中印度 - 英语情感分类任务第一名的表现。

Sep, 2020

SAIL_Code-Mixed 共享任务 @ICON-2017：印度混合语言情感分析综述

介绍了关于印地语和英语以及孟加拉语和英语的混合数据情感分析的共享任务，描述了任务、数据集、评估、基线和参与者的系统。

Mar, 2018

为情感分析准备孟加拉英语混合编码语料库

本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库，结合规则和监督模型，研发了自动感知分析的混合系统，以降低标注的人工工作量；同时，通过各种测量方法，对这种混合语料库的语言和情感特征进行了定量和定性的评估。

Mar, 2018

多语社会中代码混合自然语言处理所面临的挑战和考虑

讨论多语社会中 NLP 研究的现状、局限与未来的发展。提出英汉混合语言作为案例，探究五个涉及到社会福祉的应用领域：危机管理、医疗保健、政治宣传、假新闻与仇恨言论等。同时，提出了未来多语言 NLP 应用中可能涉及到的数据集、模型和工具。

Jun, 2021