混合泰米尔语 - 英语文本情感分析语料库的创建

May, 2020

混合泰米尔语 - 英语文本情感分析语料库的创建

Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text

Bharathi Raja Chakravarthi, Vigneshwaran Muralidaran, Ruba Priyadharshini, John P. McCrae

TL;DR本文介绍了在 YouTube 上创建的用于情感分析的 15,744 个泰米尔语 - 英语代码转换的标注语料库，用于训练情感分析模型并作为基准。

Abstract

Understanding the sentiment of a comment from a video or an image is an essential task in many applications. sentiment analysis of a text can be useful for various decision-making processes. One such application is to analyse the popular sentiments of videos on social media based on vi

sentiment analysis code-mixed data tamil youtube corpus

发现论文，激发创造

混合马拉雅拉姆语 - 英语情感分析数据集

本文提供了一个新的黄金标准情感分析语料库，用于马拉雅拉姆语 - 英语混合文本的情感分析基准，并使用有监督方法进行了分析。

May, 2020

为情感分析准备孟加拉英语混合编码语料库

本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库，结合规则和监督模型，研发了自动感知分析的混合系统，以降低标注的人工工作量；同时，通过各种测量方法，对这种混合语料库的语言和情感特征进行了定量和定性的评估。

Mar, 2018

SAIL_Code-Mixed 共享任务 @ICON-2017：印度混合语言情感分析综述

介绍了关于印地语和英语以及孟加拉语和英语的混合数据情感分析的共享任务，描述了任务、数据集、评估、基线和参与者的系统。

Mar, 2018

SemEval-2020 任务 9：代码混合推文的情感分析概述

本文介绍了 SemEval-2020 任务 9 关于混合代码推文情感分析（SentiMix 2020）的结果，释放和描述了标记有单词级别语言识别和句子级别情感标签的 Hinglish（印地语 - 英语）和 Spanglish（西班牙语 - 英语）语料库。最好的表现是在 Hinglish 和 Spanglish 分别获得了 75.0％ F1 得分和 80.6％ F1 得分。观察到在比赛者中 BERT-like 模型和集合方法是最常见和成功的方法。

Aug, 2020

使用变形金刚和多任务学习识别混合代码社交媒体文本中的情感 - 在 SemEval-2020 任务 9 中的 UPB

本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统，用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案，我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现，平均 F1 得分为 0.6850，对于西班牙语 - 英语任务，我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064，排名团队第 17 位 (29 个参赛者中).

Sep, 2020

使用预训练多语言嵌入和分词技术的混合语种文本情感分类

本论文提出一种自然语言处理算法，利用混合文本中的语码切换点，用基于大型预训练多语言模型的语义相似性和人工制作的积极和消极词汇集来确定语码切换文本的极性，以实现情感分析，其准确性和 F1 分数较基准模型提高了 11.2% 和 11.64%。

Oct, 2022

混合泰米尔语 - 英语评论攻击性跨度识别共享任务的发现

本研究提供了泰米尔语 - 英语混合社交评论中带有冒犯性内容的数据集，旨在解决社交媒体平台上对具有冒犯性内容进行分类的问题，缺乏冒犯性内容的注释数据是导致这种限制的根本原因，该研究提供了一些解决方案和结果。

May, 2022

SemEval-2020 Task 9 中的 HCMS：一种用于代码混合文本情感分析的神经网络方法

本文描述了我们在 Sentimix 印地语 - 英语任务中提交的内容，涉及对代码混合文本进行情感分类，并表现出 F1 得分为 67.1％，证明简单的卷积和注意力可能会产生合理的结果。

Jul, 2020

英 — 印度混合语语料库：立场注释和基础系统

本研究使用新的 3545 英汉混合推文数据集，研究了社交媒体用户对 2016 年印度废钞事件的观点，并提出了一个基于各种机器学习技术的监督分类系统，以实现在 10 倍交叉验证下 58.7% 的准确性。

May, 2018

一种用于印地语 - 英语混合编码数据情感分析的集成模型

本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型，用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性，实验结果表明，相较于几个基准和其他基于深度学习的提出的方法，我们的方法在真实用户混合数据上取得了最先进的结果。

Jun, 2018