利用期望统计规则改进低资源跨语言解析

ACLOct, 2022

利用期望统计规则改进低资源跨语言解析

Improving Low-Resource Cross-lingual Parsing with Expected Statistic Regularization

Thomas Effland, Michael Collins

TL;DR本研究提出了一种新颖的基于期望的统计正则化技术 (ESR)，利用低阶的多任务结构统计来塑造模型分布，适用于在低资源数据集上做半监督学习。我们将 ESR 应用到跨语言转移学习中，对句法分析 (POS 标记和带标签依存分析) 进行研究，并提出了几种低阶统计函数，证明了其优越性。实验证明，当准确估计时，提出的统计量与 ESR 在 5 种不同的目标语言上均能显著改善 POS 和 LAS。同时，我们还进行了半监督转移和学习曲线实验，结果表明，ESR 在少量标记数据上提供了更好的性能，比强大的跨语言转移加微调基线模型表现更优秀。这些结果表明，ESR 是跨语言解析模型转移方法的一种有前途和互补的方法。

Abstract

We present expected statistic regularization (ESR), a novel regularization technique that utilizes low-order multi-task structural statistics to shape model distributions for semi-supervised learning on

expected statistic regularization semi-supervised learning low-resource datasets cross-lingual transfer syntactic analysis

发现论文，激发创造

跨语言伪投影期望正则化用于弱监督学习

本文提出了基于 bitext 资源将多语种低监督学习领域的已标注语料库知识转移的一种新方法，该方法使用推断的模型期望而不是标签来指导学习。在标注数据不足的情况下，评估结果表明，在标准的中英和德英 NER 数据集上，我们的方法表现出 64％和 60％的 F1 得分。与监督 CRFs 相比，实现相同准确性需要 12k 和 1.5k 标记句子。此外，当与标记示例结合使用时，我们的方法在中文 OntoNotes 和德语 CoNLL-03 数据集上获得了迄今为止报告的最佳结果。

Oct, 2013

针对跨语言依存句法分析的目标语言感知受约束推断

本研究探讨了在跨语言依存分析中，语言的语言属性如何进行有效应用，通过使用语义知识等多种语言语料库统计数据对推理过程进行指导，使用拉格朗日松弛和后验正则化等技术来进行推理，实验表明拉格朗日松弛和后验正则化的推理显着提高了 19 个目标语言中的 15 个和 17 个的性能表现，尤其是对于源语言不同的目标语言。

Sep, 2019

半监督方法解析自然语言句子

本文介绍了在半监督下对自然语言句子进行解析的工作，重点是去除词汇的依赖关系解析器的多源跨语言转移。首先，评估了树库注释风格对解析性能的影响，重点是介词附着风格。然后，我们提出了 KLcpos3，一种经验性的语言相似度测量方法，专门用于多源去词汇解析器转移中源解析器加权。最后，基于训练解析器模型的插值，引入了一种新的资源组合方法。

Jun, 2015

EMS: 高效有效的大规模多语言句子表示学习

通过跨语言重建和句子级对比学习，提出了一种有效的高效多语句子表示学习算法 EMS，不依赖于大规模预训练模型，能显著减少并行句子和 GPU 计算资源的使用，支持 62 种语言，在双语挖掘、零样本跨语言流派分类和情感分类方面，该模型显著获得更好或相当的效果。

May, 2022

跨语言一致性正则化学习多语句子表示

MuSR 是一种支持 220 多种语言的全能多语种句子表示模型，通过使用数十亿个英文为中心的平行语料库，采用使用跨语言一致性规则化技术的多语言 NMT 框架，以训练多语言 Transformer 编码器，并采用辅助 Transformer 解码器，实现了多语言相似性搜索和双文本挖掘任务，表现优于由 148 个独立的多语种句子编码器组成的 LASER3。

Jun, 2023

理解自监督模型作为跨语言特征提取器的量化方法

通过对英文自监督学习模型在跨语言环境中提取的特征进行研究，我们提出了一种新的度量标准来预测特征表示的质量。使用自动语音识别作为下游任务，我们分析了模型大小、训练目标和模型架构对一组拓扑多样的语料库中模型作为特征提取器的性能的影响。我们开发了一种新的度量标准，即 Phonetic-Syntax Ratio (PSR)，通过深度广义典型相关分析来衡量提取表示中的音标和合成信息。结果表明，wav2vec2.0 目标中的对比损失有助于更有效的跨语言特征提取。PSR 分数与自动语音识别性能呈正相关，表明单语自监督学习模型提取的音标信息可以用于跨语言设置中的下游任务。提出的度量标准是表示质量的有效指标，可用于模型选择。

Nov, 2023

有限资源下的跨语言句法转移

本文提出了一种简单而有效的方法，可以在没有大量翻译数据的情况下进行跨语言的句法转移，这种方法基于三个步骤：1）推导跨语言单词簇的方法，可用于多语言解析器；2）将目标语言的词汇信息转移到源语言树库；3）将这些步骤与 Rasooli 和 Collins（2015）的密度驱动注释投影方法相结合。该方法在多个语言中实现了针对先前工作的最新进展，在只使用比利时圣经作为翻译数据的情况下，与以前的工作相比，Europarl 语料库的结果表现出额外的提升。最后，作者在通用依赖语料库的 38 个数据集上进行了结果展示。

Oct, 2016

正则化表示对齐下的跨语言口语理解

本篇论文提出了一种基于正则化和对抗训练的跨语言模型，能够在口语理解系统中实现单词层面和句子层面的跨语言表示对齐，并在少量数据和零样本情况下实现比当前最先进方法更好的性能表现。

Sep, 2020

用高质量翻译训练语料进行跨语言语义角色标注

本文提出了一种基于语料库翻译的新方法，通过从源标准 SRL 注释中构建高质量的目标语言训练数据集，以解决低资源语言缺乏注释数据集的挑战，并且得到了良好的效果。

Apr, 2020

使用一致性正则化的半监督神经机器翻译技术 —— 面向低资源语言

本文介绍一种半监督的方法来解决低资源语言机器翻译的问题，通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量，将交叉熵损失和 KL 散度相结合，特别是通过伪目标句子实现无监督训练，实验证明该方法可以显著提高 NMT 基线性能

Apr, 2023