使用预训练多语言嵌入和分词技术的混合语种文本情感分类
本篇论文研究了如何通过合成标记的混合文本来提高情感标签和仇恨言论检测的准确性,特别是对于那些涉及少数民族语言的语料库,该方法可以有效地通过从自动翻译的资源语言选择适当的标记跨度替换所选的子树来实现。
Jun, 2019
本研究提出了一种基于多语言变形器语言模型的框架,将区分资源丰富和资源贫乏语言作为参考来逐步从资源丰富语言的样本到资源贫乏语言的样本进行训练,来解决多语言情感分析中的跨语言学习问题。实验证明,该框架能有效帮助资源贫乏语言的样本训练。
Oct, 2022
本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感,取得了 F1-score 为 0.71 的成绩,并分析了模型的能力和代码切换语境下分类情感的重要困难。
Sep, 2020
本文介绍了一种基于 Spanglish 语料库训练的词向量模型,用于混合代码的文本的情感分析,并在 SemEval 2020 任务上取得了较好的效果。
Jun, 2020
研究发现,针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳,而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务,这些模型在混合编码数据上的表现稍微优于非混合编码数据。
May, 2024
本文提出了一种简单易用的多语言情感分析框架,旨在作为情感分析测试基线和构建新情感分析系统的起点。该框架经过在 8 种不同语言的比较中,在其中三种语言的国际竞赛中名列前茅,在其他语言中也超越了报告的结果。
Dec, 2016
本篇论文旨在探究作为一种语言现象的码代码搭配和混合情感分类在领域转移学习和多语言模型中的应用,通过测试 ERNIE 单一语言模型和对抗训练得到了强的基线和对 2020 SemEval 竞赛中印度 - 英语情感分类任务第一名的表现。
Sep, 2020
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020
本文介绍了 SemEval-2020 任务 9 关于混合代码推文情感分析(SentiMix 2020)的结果,释放和描述了标记有单词级别语言识别和句子级别情感标签的 Hinglish(印地语 - 英语)和 Spanglish(西班牙语 - 英语)语料库。最好的表现是在 Hinglish 和 Spanglish 分别获得了 75.0% F1 得分和 80.6% F1 得分。观察到在比赛者中 BERT-like 模型和集合方法是最常见和成功的方法。
Aug, 2020
本研究提出了一种跨语言脚本知识共享架构,利用交叉关注和语言脚本的对齐来生成更好的文本表示,实验证明了该方法的有效性,并通过模型可解释性技术解释了语言特定表示之间的知识共享。
Feb, 2024