PPT: 简约的解析器转移，用于无监督的跨语言适应

ACLJan, 2021

PPT: 简约的解析器转移，用于无监督的跨语言适应

PPT: Parsimonious Parser Transfer for Unsupervised Cross-Lingual Adaptation

Kemal Kurniawan, Lea Frermann, Philip Schulz, Trevor Cohn

TL;DR本文提出了一种基于无监督自我训练并采用多语言输入编码的无监督跨语言转移方法，可用于低资源语言依赖解析。该方法在不接触源语言数据、同时支持多源转移、支持非投影解析的前提下，接受任何预训练弧分解依赖分析器，并且相比于传统的直接转移方法，能够显著提高跨语言转移的准确性。

Abstract

cross-lingual transfer is a leading technique for parsing low-resource languages in the absence of explicit supervision. Simple `direct transfer' of a learned model based on a multilingual input encoding has provided a strong benchmark. This paper presents a method for unsupervised

cross-lingual transfer unsupervised learning dependency parsing self-training low-resource languages

发现论文，激发创造

通过可逆投影的无监督适应实现跨语言句法转移

本文提出了一种生成模型，通过结构化的正则先验利用标记源数据和未标记目标数据联合学习源模型和目标模型的参数来解决在距离较远的语言之间跨语言迁移的问题，并使用可逆投影来学习一种新的公共嵌入空间，以对不完美的跨语言词嵌入输入进行补偿。该方法在使用英语作为唯一源语料库并传输到广泛的目标语言的通用依赖树库上进行评估，在与英语相距较远的该数据集中的 10 种语言中，我们的方法相较于使用最先进的判别模型的直接转移方法，在词性标注和依赖分析方面分别获得了平均 5.2％和 8.3％的绝对改善。

Jun, 2019

有限资源下的跨语言句法转移

本文提出了一种简单而有效的方法，可以在没有大量翻译数据的情况下进行跨语言的句法转移，这种方法基于三个步骤：1）推导跨语言单词簇的方法，可用于多语言解析器；2）将目标语言的词汇信息转移到源语言树库；3）将这些步骤与 Rasooli 和 Collins（2015）的密度驱动注释投影方法相结合。该方法在多个语言中实现了针对先前工作的最新进展，在只使用比利时圣经作为翻译数据的情况下，与以前的工作相比，Europarl 语料库的结果表现出额外的提升。最后，作者在通用依赖语料库的 38 个数据集上进行了结果展示。

Oct, 2016

无标签辅助语言的跨语言依存句法分析

本文中提出采用对抗性训练从辅助语言中提取无标注句子帮助学习跨语言不变表示，进而用于跨语言转移，通过实验证明，对抗性训练能有效提高依存句法分析的跨语言性能。

Sep, 2019

无监督预训练在语言间具备良好的迁移能力

本篇研究调查了无监督预训练是否能够跨语言传输，以便自动语音识别系统（ASR）实现跨语言和多语言。研究表明，使用略加修改的对比性预测编码（CPC）预训练方式，能够提取和其他语言效果相当或甚至优于监督预训练的特征，证明了无监督方法在语言资源稀缺的情况下具有潜力。

Feb, 2020

无监督源语言重排序的低资源句法迁移

本文针对源语言和目标语言单词顺序的不同问题，提出了一种基于 “圣经” 语料库和跨语言词表示的依存句法跨语言迁移方法。该方法在训练前改变源语言语料的顺序，使得在欧洲语系以外的语言中达到更高的精度。在多语言数据集上，该方法在 68 个树库（38 种语言）的实验中表现良好，并在 12 种非欧洲语言的 16 个树库中实现了 3.3％的平均 UAS 绝对精度提高。

Mar, 2019

零样本跨语言语义解析

本文提出一种多任务编码 - 解码模型，通过多语言领域内语料库和英文 - 逻辑形式对标数据，在没有平行语料的情况下完成跨语言的语义解析，模型加强了语言无关编码，显著优于传统基于翻译的算法，有时能与有监督模型的上线媲美。

Apr, 2021

无平行语料的零样本跨语言迁移

通过使用预训练模型，我们提出了一种零样本跨语言转移的新方法，它能够在低资源语言上实现任务感知的双语信息对齐，并利用未标记数据进行自我训练，从而实现多种任务上的最新技术提升，无需并行语料库或翻译模型。

Oct, 2023

半监督方法解析自然语言句子

本文介绍了在半监督下对自然语言句子进行解析的工作，重点是去除词汇的依赖关系解析器的多源跨语言转移。首先，评估了树库注释风格对解析性能的影响，重点是介词附着风格。然后，我们提出了 KLcpos3，一种经验性的语言相似度测量方法，专门用于多源去词汇解析器转移中源解析器加权。最后，基于训练解析器模型的插值，引入了一种新的资源组合方法。

Jun, 2015

针对跨语言依存句法分析的目标语言感知受约束推断

本研究探讨了在跨语言依存分析中，语言的语言属性如何进行有效应用，通过使用语义知识等多种语言语料库统计数据对推理过程进行指导，使用拉格朗日松弛和后验正则化等技术来进行推理，实验表明拉格朗日松弛和后验正则化的推理显着提高了 19 个目标语言中的 15 个和 17 个的性能表现，尤其是对于源语言不同的目标语言。

Sep, 2019

基于预训练多语言句子表示的零样本依存句法分析

本篇论文研究了是否可以利用大规模多语言语料库（multilingual BERT）上预训练的现成双向深度句子表征，开发出一种无监督的通用句法分析器，以支持低资源语言的处理。实验结果表明，我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统，但仍存在一些限制，如句法分析精度仍然随训练语言的变化而变化，并且在某些目标语言中，零 - shot 转移在所有测试条件下都无法成功，这引发了人们对整个方法的普适性问题的担忧。

Oct, 2019