无平行语料的零样本跨语言迁移
CrossAligner 是一种实现零 - shot 跨语言传递任务知识的有效方法,利用未标记并行数据进行学习对齐,其细调语言模型优于预期。
Mar, 2022
本文介绍了一种零射击跨语言主题模型,利用迁移学习来处理多个语言的数据集,以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题,并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性,结果表明所转移的主题是连贯且稳定的,具有潜在的未来研究方向。
Apr, 2020
本文论述了跨语言零 - shot 迁移的问题,并通过对 XLM-RoBERTa 进行实验,研究机器阅读理解、情感分析和句子嵌入对跨语言迁移的影响。发现跨语言迁移在语义文本相似度检验(STS)中表现最强,情感分析次之,机器阅读理解中表现最弱。
Jan, 2021
提出一种称为 SALT 的简单而有效的方法,结合了代码混合和嵌入混合自增强,通过从多语言预训练语言模型中提取跨语言知识并增强其在下游任务中的可转移性,改进了零射击跨语言转移能力,而无需外部数据。
Sep, 2023
通过跨语言预训练的双语预训练方法,建立了通用编码器,将传递者和接受者的语言空间对齐,使得零翻译成为可能。实验结果表明,该方法显著优于强的基准线和各种多语言 NMT 方法。
Dec, 2019
本文系统性地探讨了在多语料库上预训练语言表示模型的情况下,零 - shot 跨语言转移学习在阅读理解任务中的应用,并通过实验结果表明,使用预训练的语言表示模型可以实现零 - shot 学习,无需将源语言数据转换为目标语言,因为这样做甚至会降低模型的性能。研究还进一步探讨了模型在零 - shot 情况下的学习效果。
Sep, 2019
本文通过实验证明使用高容量多语言语言模型应用于零样本(基于模型的跨语言转移)情况下能够比基于数据转移更好地执行跨语言序列标注,这可能是由于语言使用的重要差异所致。
Oct, 2022
本文针对零资源的多语言任务导向对话系统进行零样本自适应的提出,使用极少量的平行语词来优化对齐的跨语言词级表示,并采用潜变量模型处理不同语言间类似句子的变化,实验表明,我们的模型在零样本情况下对自然语言理解任务的适应性优于当前最先进的模型。
Nov, 2019
本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型,可在不依靠双语词典或平行数据的情况下,将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明,该模型的有效性优于现有模型,并为每个语言对设置了新的 SOTA。
Nov, 2019
本文提出一种无监督的跨语言嵌入转换方法,其中使用 Embedding-Push、Attention-Pull 和 Robust targets 来处理语言嵌入之间的聚类差异,以提高跨语言转换的可靠性。 实验结果表明,该方法在零 - shot 跨语言文本分类任务上取得显着优于以往的工作,可以获得更好的多语言对齐。
Oct, 2022