EntityCS:基于实体为中心的代码切换改进零样本跨语言迁移
本文基于随机词汇替换和等价约束,利用对齐翻译对生成随机合法的混合语言内容进行零样本学习,以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题,实验结果显示,所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER,而采用等价约束的人类评估表明,80% 以上的内容质量足够。
Jan, 2022
本文研究提出一种简单而有效的数据增强方法,以在缺乏大量语料库的情况下训练多语言系统,进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型,实现在跨句子语言转换方面的提高。
Oct, 2022
本研究的重点在于 Spanglish,提出了两种数据增强方法解决 CS 样本不足问题,结合少样本的情况,使零样本和全数据的准确度差距缩小了三分之二。
Jan, 2021
提出了一种数据增强框架以生成多语言混合数据来微调多语言 - BERT 模型,从而实现将源语言和多个目标语言的表示进行对齐,相较现有方法,该方法无需依赖双语句子进行训练,并且只需一个训练过程即可对多个目标语言进行微调,对于 19 种语言的五项任务表现均明显提高。
Jun, 2020
研究提出了一种基于 ELMo 模型和位置感知的关注机制的代码切换模型:CS-ELMo,它通过迁移学习将英语知识转移到不同的代码切换语言对(如尼泊尔语 - 英语,西班牙语 - 英语和印地语 - 英语),并在 NER 和 POS 标记等关键任务上显著优于其他模型。
Sep, 2019
本文提出了一种通过多语言代码切换来增强 Transformer 的语言中立性的新方法,从而解决零样本学习中在未知目标语言下预测用户意图和检测相应选项的问题,并在多个语言上对 MultiATIS ++ 数据集进行实验,相较于现有技术,平均精度提高了 + 4.2%,F1 提高了 + 1.8%。通过收集英语和海地克里奥尔语的新人工标注推文数据集,本文将该方法应用于危机信息学。
Mar, 2021
本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验,最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明,使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。
May, 2023
本研究探讨了零资源语言的跨语言实体链接问题,利用高资源语言建立了基于字级别神经实体链接模型的枢轴式实体链接框架,实现了跨 54 种语言的零 - shot transfer,并在 9 种低资源语言上进行了实验,相比于基线系统,平均提高了 17% 的实体链接准确性。同时,文章还探讨了语言通用音韵表示的使用,在不同语言之间转移时将平均准确率提高了 36%。
Nov, 2018
本篇研究关注英语 / 西班牙语对话中出现的代码转换,探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现,得出双向端到端模型表现良好的结论。
Apr, 2022