EntityCS：基于实体为中心的代码切换改进零样本跨语言迁移

EMNLPOct, 2022

EntityCS：基于实体为中心的代码切换改进零样本跨语言迁移

EntityCS: Improving Zero-Shot Cross-lingual Transfer with Entity-Centric Code Switching

Chenxi Whitehouse, Fenia Christopoulou, Ignacio Iacobacci

TL;DR本文提出了一种实体级别的语言混合方法（EntityCS），不仅可以避免语法错误，还可以提高四个实体中心下游任务的性能，在 Fact Retrieval 任务上最高可达 10%。

Abstract

Accurate alignment between languages is fundamental for improving cross-lingual pre-trained language models (xlms). Motivated by the natural phenomenon of code-switching (CS) in →

code-switching entity-level multilingual xlms data augmentation

发现论文，激发创造

阿拉伯语 - 英语代码切换语音识别的文本数据增强

本文基于随机词汇替换和等价约束，利用对齐翻译对生成随机合法的混合语言内容进行零样本学习，以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题，实验结果显示，所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER，而采用等价约束的人类评估表明，80% 以上的内容质量足够。

Jan, 2022

端到端语音识别中的语言无关代码切换

本文研究提出一种简单而有效的数据增强方法，以在缺乏大量语料库的情况下训练多语言系统，进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型，实现在跨句子语言转换方面的提高。

Oct, 2022

通过渐进式代码切换改善零样本跨语言迁移

逐渐生成适度困难的混合码交换示例，以引导模型对更困难的混合码交换数据进行优化，并根据单词相关性评分设计了难度测量器、代码切换器和训练调度器。

Jun, 2024

El Volumen Louder Por Favor: 任务导向的语义解析中的语码转换

本研究的重点在于 Spanglish，提出了两种数据增强方法解决 CS 样本不足问题，结合少样本的情况，使零样本和全数据的准确度差距缩小了三分之二。

Jan, 2021

CoSDA-ML: 多语言混码数据增强用于零样本跨语言自然语言处理

提出了一种数据增强框架以生成多语言混合数据来微调多语言 - BERT 模型，从而实现将源语言和多个目标语言的表示进行对齐，相较现有方法，该方法无需依赖双语句子进行训练，并且只需一个训练过程即可对多个目标语言进行微调，对于 19 种语言的五项任务表现均明显提高。

Jun, 2020

从英语到混合语：利用强形态线索的迁移学习

研究提出了一种基于 ELMo 模型和位置感知的关注机制的代码切换模型：CS-ELMo，它通过迁移学习将英语知识转移到不同的代码切换语言对（如尼泊尔语 - 英语，西班牙语 - 英语和印地语 - 英语），并在 NER 和 POS 标记等关键任务上显著优于其他模型。

Sep, 2019

零样本跨语言意图预测和槽填充的多语言码交换

本文提出了一种通过多语言代码切换来增强 Transformer 的语言中立性的新方法，从而解决零样本学习中在未知目标语言下预测用户意图和检测相应选项的问题，并在多个语言上对 MultiATIS ++ 数据集进行实验，相较于现有技术，平均精度提高了 + 4.2％，F1 提高了 + 1.8％。通过收集英语和海地克里奥尔语的新人工标注推文数据集，本文将该方法应用于危机信息学。

Mar, 2021

通过人工混合数据训练来提升零样本跨语言检索

本研究探讨了如何将零 - shot 模型从高资源语言（一般是英语）迁移到其他语言，结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此，我们提出利用双语词典生成人工混合语言的数据来训练排名模型，我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验，最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明，使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。

May, 2023

零样本神经网络跨语言实体链接

本研究探讨了零资源语言的跨语言实体链接问题，利用高资源语言建立了基于字级别神经实体链接模型的枢轴式实体链接框架，实现了跨 54 种语言的零 - shot transfer，并在 9 种低资源语言上进行了实验，相比于基线系统，平均提高了 17% 的实体链接准确性。同时，文章还探讨了语言通用音韵表示的使用，在不同语言之间转移时将平均准确率提高了 36%。

Nov, 2018

端到端的语音翻译用于代码切换的语音

本篇研究关注英语 / 西班牙语对话中出现的代码转换，探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现，得出双向端到端模型表现良好的结论。

Apr, 2022