通过预测语言模式进行跨语言代码混合数据增强

Nov, 2022

通过预测语言模式进行跨语言代码混合数据增强

Language Agnostic Code-Mixing Data Augmentation by Predicting Linguistic Patterns

Shuyue Stella Li, Kenton Murray

TL;DR本文研究围绕语内码混杂问题，提出了多种合成混杂数据方法，在各种数量的标注黄金数据中，在下游情感分析任务上表现出色。最重要的是，我们的方法表明，用定量掩码替换矩阵语言句子的部分内容可以显著提高分类准确性，这激发了对码混杂现象的进一步语言学洞察。我们在各种低资源和跨语言设置中测试了数据增强方法，在极度缺乏英马拉雅语的数据集上获得了高达 7.73％的相对改进。最后，我们提出了一种语言不可知的 SCM 算法，对低资源语言非常有用。

Abstract

In this work, we focus on intrasentential code-mixing and propose several different synthetic code-mixing (SCM) data augmentation methods

intrasentential code-mixing synthetic code-mixing data augmentation sentiment analysis low-resource languages

发现论文，激发创造

利用丰富资源语言进行混合语言情感分析

本文提出了一种名为 SACMT 的新方法，使用对比学习将混合代码和标准语言的句子映射到共同的情感空间，通过基本的聚类预处理方法来捕捉混合语音文字的变化，并且在情感分析中优于现有方法 7.6% 的准确度和 10.1% 的 F 分数。

Apr, 2018

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

基于生成对抗网络的混合语生成句及其在数据增强中的应用

本论文提出一种无监督方法，通过利用生成对抗网络从单语句产生句内代码交换句子，以增加代码交换数据，从而改善代码交换语言模型的性能。

Nov, 2018

混合代碼響應的強響應代碼混合翻譯的生成和聯合學習

本文研究了混合编码（Hinglish 和 Bengalish）到英语的机器翻译问题，通过合成 Hinglish 到英语的平行语料库以及提出的鲁棒扰动联合训练模型（RCMT），并展示了 RCMT 在 Bengalish 到英语翻译上的零样例适应能力，通过定性和定量分析证明了 RCMT 在混合编码和鲁棒翻译方法上的优越性。

Mar, 2024

代码混合情感和仇恨言论预测

研究发现，针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳，而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务，这些模型在混合编码数据上的表现稍微优于非混合编码数据。

May, 2024

SentMix-3L: 面向情感分析的孟加拉 - 英语 - 印地语混合代码数据集

本论文介绍了 SentMix-3L，一个包含三种语言（孟加拉语、英语和印地语）的代码混合情感分析数据集，并通过对 SentMix-3L 的全面评估表明，采用 GPT-3.5 的零次提示能够在 SentMix-3L 上胜过所有基于变压器的模型。

Oct, 2023

CoSDA-ML: 多语言混码数据增强用于零样本跨语言自然语言处理

提出了一种数据增强框架以生成多语言混合数据来微调多语言 - BERT 模型，从而实现将源语言和多个目标语言的表示进行对齐，相较现有方法，该方法无需依赖双语句子进行训练，并且只需一个训练过程即可对多个目标语言进行微调，对于 19 种语言的五项任务表现均明显提高。

Jun, 2020

kk2018 参加 SemEval-2020 任务 9：针对混合编码的情感分类进行对抗性训练

本篇论文旨在探究作为一种语言现象的码代码搭配和混合情感分类在领域转移学习和多语言模型中的应用，通过测试 ERNIE 单一语言模型和对抗训练得到了强的基线和对 2020 SemEval 竞赛中印度 - 英语情感分类任务第一名的表现。

Sep, 2020

通过标签转移从单语到合成混码文本以提高情感检测

本篇论文研究了如何通过合成标记的混合文本来提高情感标签和仇恨言论检测的准确性，特别是对于那些涉及少数民族语言的语料库，该方法可以有效地通过从自动翻译的资源语言选择适当的标记跨度替换所选的子树来实现。

Jun, 2019

混合马拉雅拉姆语 - 英语情感分析数据集

本文提供了一个新的黄金标准情感分析语料库，用于马拉雅拉姆语 - 英语混合文本的情感分析基准，并使用有监督方法进行了分析。

May, 2020