无标签辅助语言的跨语言依存句法分析

Sep, 2019

无标签辅助语言的跨语言依存句法分析

Cross-lingual Dependency Parsing with Unlabeled Auxiliary Languages

Wasi Uddin Ahmad, Zhisong Zhang, Xuezhe Ma, Kai-Wei Chang, Nanyun Peng

TL;DR本文中提出采用对抗性训练从辅助语言中提取无标注句子帮助学习跨语言不变表示，进而用于跨语言转移，通过实验证明，对抗性训练能有效提高依存句法分析的跨语言性能。

Abstract

cross-lingual transfer learning has become an important weapon to battle the unavailability of annotated resources for low-resource languages. One of the fundamental techniques to transfer across languages is lea

cross-lingual transfer learning language-agnostic representations adversarial training dependency parsing low-resource languages

发现论文，激发创造

PPT: 简约的解析器转移，用于无监督的跨语言适应

本文提出了一种基于无监督自我训练并采用多语言输入编码的无监督跨语言转移方法，可用于低资源语言依赖解析。该方法在不接触源语言数据、同时支持多源转移、支持非投影解析的前提下，接受任何预训练弧分解依赖分析器，并且相比于传统的直接转移方法，能够显著提高跨语言转移的准确性。

Jan, 2021

语言嵌入：用于语言类型学和跨语言迁移学习

本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务，而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入，并在零样本情况下使用 WALS 和两个外部任务（跨语言依赖解析和跨语言自然语言推理）来评估嵌入。

Jun, 2021

利用对抗训练在自学习中进行跨语言文本分类

本研究提出了一种半监督敌对训练过程，通过最小化标签保留输入扰动的最大损失来改进跨语言文本分类，进而为目标语言样本诱导标签以进一步适应模型。与多个强基线比较，我们观察到了在各种语言的文档和意图分类上的显著增益。

Jul, 2020

通过可逆投影的无监督适应实现跨语言句法转移

本文提出了一种生成模型，通过结构化的正则先验利用标记源数据和未标记目标数据联合学习源模型和目标模型的参数来解决在距离较远的语言之间跨语言迁移的问题，并使用可逆投影来学习一种新的公共嵌入空间，以对不完美的跨语言词嵌入输入进行补偿。该方法在使用英语作为唯一源语料库并传输到广泛的目标语言的通用依赖树库上进行评估，在与英语相距较远的该数据集中的 10 种语言中，我们的方法相较于使用最先进的判别模型的直接转移方法，在词性标注和依赖分析方面分别获得了平均 5.2％和 8.3％的绝对改善。

Jun, 2019

基于预训练多语言句子表示的零样本依存句法分析

本篇论文研究了是否可以利用大规模多语言语料库（multilingual BERT）上预训练的现成双向深度句子表征，开发出一种无监督的通用句法分析器，以支持低资源语言的处理。实验结果表明，我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统，但仍存在一些限制，如句法分析精度仍然随训练语言的变化而变化，并且在某些目标语言中，零 - shot 转移在所有测试条件下都无法成功，这引发了人们对整个方法的普适性问题的担忧。

Oct, 2019

基于概念的弱监督对抗学习用于跨语言词嵌入

本论文提出了一种基于概念的弱监督对抗训练方法，通过将单词映射到连续向量的分布表示法，实现不需要大量平行数据（如字典或句子对齐语料库）的语言间互译，并针对语言间距离大的情况，在大多数语言上改善了以前无监督的对抗方法的性能。

Apr, 2019

针对跨语言依存句法分析的目标语言感知受约束推断

本研究探讨了在跨语言依存分析中，语言的语言属性如何进行有效应用，通过使用语义知识等多种语言语料库统计数据对推理过程进行指导，使用拉格朗日松弛和后验正则化等技术来进行推理，实验表明拉格朗日松弛和后验正则化的推理显着提高了 19 个目标语言中的 15 个和 17 个的性能表现，尤其是对于源语言不同的目标语言。

Sep, 2019

上下文词嵌入的跨语言对齐及其在零样本依赖分析中的应用

本文提出一种使用无监督预训练的深度上下文嵌入的多语言转移方法，可以提高零样本和少样本学习的依赖解析的效果。实验结果表明，该方法在六种测试语言中持续优于之前的最新技术。

Feb, 2019

通过鲁棒性训练提升零样本跨语言迁移学习

本文提出了一种通过对抗样本和零样本跨语言转移失败案例进行联系的学习策略，采用对抗性训练和随机平滑这两种方法来训练多语言编码器更加强健的模型，实验结果表明，强健训练可以提高零样本跨语言数据分类任务中的性能，尤其在输入语句属于两种不同语言的情况下，改进更为显著。

Apr, 2021

利用多语言 BERT、小语料库和小树库进行分析

本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究，结果显示这些方法可以显著提高性能，特别是在最低资源的情况下，并证明了模型的预训练数据与目标语言变体之间的关系的重要性。

Sep, 2020