使用预训练多语言嵌入和分词技术的混合语种文本情感分类

Oct, 2022

使用预训练多语言嵌入和分词技术的混合语种文本情感分类

Sentiment Classification of Code-Switched Text using Pre-trained Multilingual Embeddings and Segmentation

Saurav K. Aryal, Howard Prioleau, Gloria Washington

TL;DR本论文提出一种自然语言处理算法，利用混合文本中的语码切换点，用基于大型预训练多语言模型的语义相似性和人工制作的积极和消极词汇集来确定语码切换文本的极性，以实现情感分析，其准确性和 F1 分数较基准模型提高了 11.2% 和 11.64%。

Abstract

With increasing globalization and immigration, various studies have estimated that about half of the world population is bilingual. Consequently, individuals concurrently use two or more languages or dialects in casual conversational settings. However, most research is →

code-switching sentiment analysis natural language processing multilingual models bilingual

发现论文，激发创造

通过标签转移从单语到合成混码文本以提高情感检测

本篇论文研究了如何通过合成标记的混合文本来提高情感标签和仇恨言论检测的准确性，特别是对于那些涉及少数民族语言的语料库，该方法可以有效地通过从自动翻译的资源语言选择适当的标记跨度替换所选的子树来实现。

Jun, 2019

混合语文本数据的渐进情感分析

本研究提出了一种基于多语言变形器语言模型的框架，将区分资源丰富和资源贫乏语言作为参考来逐步从资源丰富语言的样本到资源贫乏语言的样本进行训练，来解决多语言情感分析中的跨语言学习问题。实验证明，该框架能有效帮助资源贫乏语言的样本训练。

Oct, 2022

NLP-CIC 在 SemEval-2020 任务 9 中使用简单深度学习分类器分析混合语言情感

本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感，取得了 F1-score 为 0.71 的成绩，并分析了模型的能力和代码切换语境下分类情感的重要困难。

Sep, 2020

SemEval-2020 任务 9 中的 CS-Embed：代码交换词嵌入在情感分析中的有效性

本文介绍了一种基于 Spanglish 语料库训练的词向量模型，用于混合代码的文本的情感分析，并在 SemEval 2020 任务上取得了较好的效果。

Jun, 2020

代码混合情感和仇恨言论预测

研究发现，针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳，而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务，这些模型在混合编码数据上的表现稍微优于非混合编码数据。

May, 2024

Twitter 上跨语言情感分类的简单方法

本文提出了一种简单易用的多语言情感分析框架，旨在作为情感分析测试基线和构建新情感分析系统的起点。该框架经过在 8 种不同语言的比较中，在其中三种语言的国际竞赛中名列前茅，在其他语言中也超越了报告的结果。

Dec, 2016

kk2018 参加 SemEval-2020 任务 9：针对混合编码的情感分类进行对抗性训练

本篇论文旨在探究作为一种语言现象的码代码搭配和混合情感分类在领域转移学习和多语言模型中的应用，通过测试 ERNIE 单一语言模型和对抗训练得到了强的基线和对 2020 SemEval 竞赛中印度 - 英语情感分类任务第一名的表现。

Sep, 2020

使用变形金刚和多任务学习识别混合代码社交媒体文本中的情感 - 在 SemEval-2020 任务 9 中的 UPB

本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统，用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案，我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现，平均 F1 得分为 0.6850，对于西班牙语 - 英语任务，我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064，排名团队第 17 位 (29 个参赛者中).

Sep, 2020

SemEval-2020 任务 9：代码混合推文的情感分析概述

本文介绍了 SemEval-2020 任务 9 关于混合代码推文情感分析（SentiMix 2020）的结果，释放和描述了标记有单词级别语言识别和句子级别情感标签的 Hinglish（印地语 - 英语）和 Spanglish（西班牙语 - 英语）语料库。最好的表现是在 Hinglish 和 Spanglish 分别获得了 75.0％ F1 得分和 80.6％ F1 得分。观察到在比赛者中 BERT-like 模型和集合方法是最常见和成功的方法。

Aug, 2020

跨语言脚本转化与对齐：用于混合编码数据的情感检测

本研究提出了一种跨语言脚本知识共享架构，利用交叉关注和语言脚本的对齐来生成更好的文本表示，实验证明了该方法的有效性，并通过模型可解释性技术解释了语言特定表示之间的知识共享。

Feb, 2024