通过渐进式代码切换改善零样本跨语言迁移
提出了一种数据增强框架以生成多语言混合数据来微调多语言 - BERT 模型,从而实现将源语言和多个目标语言的表示进行对齐,相较现有方法,该方法无需依赖双语句子进行训练,并且只需一个训练过程即可对多个目标语言进行微调,对于 19 种语言的五项任务表现均明显提高。
Jun, 2020
本文提出了一种实体级别的语言混合方法(EntityCS),不仅可以避免语法错误,还可以提高四个实体中心下游任务的性能,在 Fact Retrieval 任务上最高可达 10%。
Oct, 2022
本文提出了一种通过多语言代码切换来增强 Transformer 的语言中立性的新方法,从而解决零样本学习中在未知目标语言下预测用户意图和检测相应选项的问题,并在多个语言上对 MultiATIS ++ 数据集进行实验,相较于现有技术,平均精度提高了 + 4.2%,F1 提高了 + 1.8%。通过收集英语和海地克里奥尔语的新人工标注推文数据集,本文将该方法应用于危机信息学。
Mar, 2021
本研究提出了一种基于多语言变形器语言模型的框架,将区分资源丰富和资源贫乏语言作为参考来逐步从资源丰富语言的样本到资源贫乏语言的样本进行训练,来解决多语言情感分析中的跨语言学习问题。实验证明,该框架能有效帮助资源贫乏语言的样本训练。
Oct, 2022
本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究,揭示了预训练语言模型在泛化到混合语言文本上的有效性,从而为这些模型在处理混合语言资源方面的能力提供了洞察。
Mar, 2024
本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验,最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明,使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。
May, 2023
本文研究如何使用深度学习方法提高混合语言识别的准确性,提出了包括使用 Residual CNN+GRU 模型,以及使用自动语音识别(ASR)作为辅助任务的多任务预训练方法等两种有效方法,并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集,最终实验结果显示,本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。
May, 2023
为了解决训练混合语言模型的困难,本研究提出了一种基于序列 - 序列模型及 copy 机制的新型训练方法,通过有限的混合语言数据和单语数据的并行翻译生成需要的混合语言数据,且无需对齐或分析,实现了良好的表现,并显著提高了末端自动语音识别。
Sep, 2019
提出一种称为 SALT 的简单而有效的方法,结合了代码混合和嵌入混合自增强,通过从多语言预训练语言模型中提取跨语言知识并增强其在下游任务中的可转移性,改进了零射击跨语言转移能力,而无需外部数据。
Sep, 2023