SAIL_Code-Mixed 共享任务 @ICON-2017:印度混合语言情感分析综述
本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库,结合规则和监督模型,研发了自动感知分析的混合系统,以降低标注的人工工作量;同时,通过各种测量方法,对这种混合语料库的语言和情感特征进行了定量和定性的评估。
Mar, 2018
本文介绍了 SemEval-2020 任务 9 关于混合代码推文情感分析(SentiMix 2020)的结果,释放和描述了标记有单词级别语言识别和句子级别情感标签的 Hinglish(印地语 - 英语)和 Spanglish(西班牙语 - 英语)语料库。最好的表现是在 Hinglish 和 Spanglish 分别获得了 75.0% F1 得分和 80.6% F1 得分。观察到在比赛者中 BERT-like 模型和集合方法是最常见和成功的方法。
Aug, 2020
研究发现,针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳,而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务,这些模型在混合编码数据上的表现稍微优于非混合编码数据。
May, 2024
本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型,用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性,实验结果表明,相较于几个基准和其他基于深度学习的提出的方法,我们的方法在真实用户混合数据上取得了最先进的结果。
Jun, 2018
本论文介绍了 SentMix-3L,一个包含三种语言(孟加拉语、英语和印地语)的代码混合情感分析数据集,并通过对 SentMix-3L 的全面评估表明,采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。
Oct, 2023
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020
本文介绍了在 YouTube 上创建的用于情感分析的 15,744 个泰米尔语 - 英语代码转换的标注语料库,用于训练情感分析模型并作为基准。
May, 2020
本篇论文旨在探究作为一种语言现象的码代码搭配和混合情感分类在领域转移学习和多语言模型中的应用,通过测试 ERNIE 单一语言模型和对抗训练得到了强的基线和对 2020 SemEval 竞赛中印度 - 英语情感分类任务第一名的表现。
Sep, 2020
本文提出了一种名为 SACMT 的新方法,使用对比学习将混合代码和标准语言的句子映射到共同的情感空间,通过基本的聚类预处理方法来捕捉混合语音文字的变化,并且在情感分析中优于现有方法 7.6% 的准确度和 10.1% 的 F 分数。
Apr, 2018