本文提出了一种基于无监督自我训练并采用多语言输入编码的无监督跨语言转移方法,可用于低资源语言依赖解析。该方法在不接触源语言数据、同时支持多源转移、支持非投影解析的前提下,接受任何预训练弧分解依赖分析器,并且相比于传统的直接转移方法,能够显著提高跨语言转移的准确性。
Jan, 2021
本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务,而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入,并在零样本情况下使用 WALS 和两个外部任务(跨语言依赖解析和跨语言自然语言推理)来评估嵌入。
Jun, 2021
本研究提出了一种半监督敌对训练过程,通过最小化标签保留输入扰动的最大损失来改进跨语言文本分类,进而为目标语言样本诱导标签以进一步适应模型。与多个强基线比较,我们观察到了在各种语言的文档和意图分类上的显著增益。
Jul, 2020
本文提出了一种生成模型,通过结构化的正则先验利用标记源数据和未标记目标数据联合学习源模型和目标模型的参数来解决在距离较远的语言之间跨语言迁移的问题,并使用可逆投影来学习一种新的公共嵌入空间,以对不完美的跨语言词嵌入输入进行补偿。该方法在使用英语作为唯一源语料库并传输到广泛的目标语言的通用依赖树库上进行评估,在与英语相距较远的该数据集中的 10 种语言中,我们的方法相较于使用最先进的判别模型的直接转移方法,在词性标注和依赖分析方面分别获得了平均 5.2%和 8.3%的绝对改善。
Jun, 2019
本篇论文研究了是否可以利用大规模多语言语料库(multilingual BERT)上预训练的现成双向深度句子表征,开发出一种无监督的通用句法分析器,以支持低资源语言的处理。实验结果表明,我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统,但仍存在一些限制,如句法分析精度仍然随训练语言的变化而变化,并且在某些目标语言中,零 - shot 转移在所有测试条件下都无法成功,这引发了人们对整个方法的普适性问题的担忧。
Oct, 2019
本论文提出了一种基于概念的弱监督对抗训练方法,通过将单词映射到连续向量的分布表示法,实现不需要大量平行数据(如字典或句子对齐语料库)的语言间互译,并针对语言间距离大的情况,在大多数语言上改善了以前无监督的对抗方法的性能。
Apr, 2019
本研究探讨了在跨语言依存分析中,语言的语言属性如何进行有效应用,通过使用语义知识等多种语言语料库统计数据对推理过程进行指导,使用拉格朗日松弛和后验正则化等技术来进行推理,实验表明拉格朗日松弛和后验正则化的推理显着提高了 19 个目标语言中的 15 个和 17 个的性能表现,尤其是对于源语言不同的目标语言。
Sep, 2019
本文提出一种使用无监督预训练的深度上下文嵌入的多语言转移方法,可以提高零样本和少样本学习的依赖解析的效果。实验结果表明,该方法在六种测试语言中持续优于之前的最新技术。
Feb, 2019
本文提出了一种通过对抗样本和零样本跨语言转移失败案例进行联系的学习策略,采用对抗性训练和随机平滑这两种方法来训练多语言编码器更加强健的模型,实验结果表明,强健训练可以提高零样本跨语言数据分类任务中的性能,尤其在输入语句属于两种不同语言的情况下,改进更为显著。
Apr, 2021
本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究,结果显示这些方法可以显著提高性能,特别是在最低资源的情况下,并证明了模型的预训练数据与目标语言变体之间的关系的重要性。
Sep, 2020