英 — 印度混合语语料库:立场注释和基础系统
本文介绍了一种基于社交媒体的立场检测的方法,该方法使用了情感分析来帮助检测人们的立场,同时构建了一个用于训练和测试机器学习模型的数据集,并使用了远程监督技术和词嵌入来进一步提高立场检测的准确性。
May, 2016
本文介绍了 SemEval-2020 任务 9 关于混合代码推文情感分析(SentiMix 2020)的结果,释放和描述了标记有单词级别语言识别和句子级别情感标签的 Hinglish(印地语 - 英语)和 Spanglish(西班牙语 - 英语)语料库。最好的表现是在 Hinglish 和 Spanglish 分别获得了 75.0% F1 得分和 80.6% F1 得分。观察到在比赛者中 BERT-like 模型和集合方法是最常见和成功的方法。
Aug, 2020
通过英 - 印混合码数据集,我们开发了一个基于随机森林分类器并进行了 10 折交叉验证的基线监督分类系统,该系统可以检测到社交媒体上的文字中的反讽,并标记每个标记的语言标签。该系统平均得分为 78.4%。
May, 2018
为了防止网络暴力和仇恨言论,本文通过对两个印度最流行的社交媒体平台 Twitter 和 Facebook 上的印地语 - 英语代码混合数据进行注释,开发出一套攻击标签集和注释语料库,以进行进一步的研究和防范。
Mar, 2018
本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库,结合规则和监督模型,研发了自动感知分析的混合系统,以降低标注的人工工作量;同时,通过各种测量方法,对这种混合语料库的语言和情感特征进行了定量和定性的评估。
Mar, 2018
本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型,用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性,实验结果表明,相较于几个基准和其他基于深度学习的提出的方法,我们的方法在真实用户混合数据上取得了最先进的结果。
Jun, 2018
本文介绍了在 YouTube 上创建的用于情感分析的 15,744 个泰米尔语 - 英语代码转换的标注语料库,用于训练情感分析模型并作为基准。
May, 2020
介绍了关于印地语和英语以及孟加拉语和英语的混合数据情感分析的共享任务,描述了任务、数据集、评估、基线和参与者的系统。
Mar, 2018
本文主要介绍了自动检测文本中幽默的困难性,分析了社交媒体文本中语言混合对幽默检测的挑战,提出了一种基于英语 - 印地混合语的幽默检测技术,并提供了基于此技术的分类系统。
Jun, 2018
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020