GLUECoS : 用于代码交替自然语言处理的评估基准

ACLApr, 2020

GLUECoS : 用于代码交替自然语言处理的评估基准

GLUECoS : An Evaluation Benchmark for Code-Switched NLP

Simran Khanuja, Sandipan Dandapat, Anirudh Srinivasan, Sunayana Sitaram, Monojit Choudhury

TL;DR在一个名为，GLUECoS, 的评估基准中，使用多语境上下文嵌入模型进行评估，评估基准包括领域从文本中识别、POS 标记、命名实体识别、情感分析、问答和一项新的代码交换任务的多个自然语言处理任务。我们使用跨语言和多语言模型在所有这些任务上展示结果，并在人工生成的代码交换数据上微调多语言模型，结果表明多语言模型可以进一步针对代码交换任务进行优化，即使多语言模型比跨语言模型表现显著好，但我们的结果表明，在大多数任务中，无论是跨语言还是多种语言，微调代码交换数据上的多语言模型效果最佳。

Abstract

code-switching is the use of more than one language in the same conversation or utterance. Recently, multilingual contextual embedding models, trained on multiple monolingual corpora, have shown promising results

code-switching multilingual contextual embedding models gluecos language identification natural language inference

发现论文，激发创造

CoSDA-ML: 多语言混码数据增强用于零样本跨语言自然语言处理

提出了一种数据增强框架以生成多语言混合数据来微调多语言 - BERT 模型，从而实现将源语言和多个目标语言的表示进行对齐，相较现有方法，该方法无需依赖双语句子进行训练，并且只需一个训练过程即可对多个目标语言进行微调，对于 19 种语言的五项任务表现均明显提高。

Jun, 2020

从英语到混合语：利用强形态线索的迁移学习

研究提出了一种基于 ELMo 模型和位置感知的关注机制的代码切换模型：CS-ELMo，它通过迁移学习将英语知识转移到不同的代码切换语言对（如尼泊尔语 - 英语，西班牙语 - 英语和印地语 - 英语），并在 NER 和 POS 标记等关键任务上显著优于其他模型。

Sep, 2019

LinCE: 一个用于语言混合评估的集中式基准测试

本文提出了用于语言混合（Code-Switching）的中心化基准测试（LinCE），其中包括四种混音语言对和四个 NLP 任务，包括语言识别，命名实体识别，词性标注和情感分析。LinCE 旨在提高多语言 NLP 建模的可重复性、可比性和准确性。

May, 2020

CroCoSum: 用于跨语言代码切换总结的评估数据集

本文介绍了 CroCoSum 数据集，这是一个跨语言代码交替技术新闻摘要的数据集。该数据集包含超过 24000 个英文来源文章和超过 18000 个中文新闻摘要，并展示了现有方法在该数据集上的表现，揭示了现有资源的有限普适性。

Mar, 2023

NLP-CIC 在 SemEval-2020 任务 9 中使用简单深度学习分类器分析混合语言情感

本文通过使用卷积神经网络模型来预测西班牙语和英语混合推文的情感，取得了 F1-score 为 0.71 的成绩，并分析了模型的能力和代码切换语境下分类情感的重要困难。

Sep, 2020

多语言模型在代码交错中有效吗？

本文研究了多语言语言模型在代码切换任务中的应用效果，通过研究实验得出使用元嵌入方法能够在参数数量减少的情况下取得类似的结果。

Mar, 2021

混码探针展示预训练模型如何在混码文本上泛化

本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究，揭示了预训练语言模型在泛化到混合语言文本上的有效性，从而为这些模型在处理混合语言资源方面的能力提供了洞察。

Mar, 2024

使用语法感知多任务学习的代码切换语言建模

本研究提出了一种基于多任务学习的语言模型，其共享语言的语法表示，从而利用语言学信息并解决低资源数据问题，通过同时学习语言建模和语音标记来识别代码切换点的位置并改进下一个词的预测，实验表明该方法在 SEAME Phase I 和 Phase II 数据集上的困惑度分别提高了 9.7% 和 7.4%，优于基于标准 LSTM 的语言模型。

May, 2018

SemEval-2020 任务 9 中的 CS-Embed：代码交换词嵌入在情感分析中的有效性

本文介绍了一种基于 Spanglish 语料库训练的词向量模型，用于混合代码的文本的情感分析，并在 SemEval 2020 任务上取得了较好的效果。

Jun, 2020

通过人工混合数据训练来提升零样本跨语言检索

本研究探讨了如何将零 - shot 模型从高资源语言（一般是英语）迁移到其他语言，结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此，我们提出利用双语词典生成人工混合语言的数据来训练排名模型，我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验，最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明，使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。

May, 2023