跨语言伪投影期望正则化用于弱监督学习

Oct, 2013

跨语言伪投影期望正则化用于弱监督学习

Cross-lingual Pseudo-Projected Expectation Regularization for Weakly Supervised Learning

Mengqiu Wang, Christopher D. Manning

TL;DR本文提出了基于 bitext 资源将多语种低监督学习领域的已标注语料库知识转移的一种新方法，该方法使用推断的模型期望而不是标签来指导学习。在标注数据不足的情况下，评估结果表明，在标准的中英和德英 NER 数据集上，我们的方法表现出 64％和 60％的 F1 得分。与监督 CRFs 相比，实现相同准确性需要 12k 和 1.5k 标记句子。此外，当与标记示例结合使用时，我们的方法在中文 OntoNotes 和德语 CoNLL-03 数据集上获得了迄今为止报告的最佳结果。

Abstract

We consider a multilingual weakly supervised learning scenario where knowledge from annotated corpora in a resource-rich language is transferred via bitext to guide the learning in other languages. Past approache

multilingual weakly supervised learning bitext model uncertainty discriminative crf model ner datasets

发现论文，激发创造

跨语言标签投影的约束解码

零 - shot 跨语言迁移利用多语言 LLMs 已成为一种流行的学习范式，适用于低资源语言没有标记的训练数据。然而，在涉及单词和短语细粒度预测的 NLP 任务中，零 - shot 跨语言迁移学习性能远远落后于有监督的微调方法。因此，通过使用翻译和标签映射来进一步提高性能是很常见的。本文中，我们探索了一种通过限制解码进行标签映射的新方法，克服了先前提到的问题。我们的新方法不仅能保持翻译文本的质量，还具有适用于训练和测试数据的多样性。我们在两个跨语言迁移任务上进行评估，分别是命名实体识别和事件论证抽取，涵盖了 20 种语言。结果表明，我们的方法比现有的基于标记的方法具有更好的性能，并且比依赖于外部词对齐的其他标签映射方法表现更好。

Feb, 2024

通过有效的注释和表示投影进行弱监督的跨语言命名实体识别

本文提出两种弱监督的跨语言实体标识方法，分别基于注释投影和词嵌入，无需使用目标语言的人工注释数据。同时，我们设计了两种协同解码方案，将两个基于投影的方法的输出相结合，评估表明这种组合性的方法优于其他三种弱监督方法。

Jul, 2017

学习何时信任远程监督：一种用跨语言投影进行低资源词性标注的应用

本文提出一种新的序列标注方法，使用显式的去偏置层对跨语言映射的错误进行更正，通过对一个拥有金标准标注和一个拥有投影标注的语料库进行联合学习，在仅有 1000 个金标准标注的情况下，加上更丰富的平行数据，系统在 8 个低资源设置和两个真实低资源语言，马达加斯加语和基尼阿瓦达语方面等于或超过了最先进技术水平。

Jul, 2016

跨语言、字符级别的低资源命名实体识别的神经条件随机场

通过字符级神经 CRF 模型进行跨多个语言的命名实体识别的迁移学习，使得在资源丰富和资源匮乏的语言中都能提高 F1 分数，并在基线上提升 9.8 个点。

Apr, 2024

跨语言转移的令人沮丧的简单标签投影

本文分析了在 42 种语言和三个任务（问答，命名实体识别，事件抽取）上，将标注数据转换为多种语言的效果以及不同的标签投影方法，发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。

Nov, 2022

正则化表示对齐下的跨语言口语理解

本篇论文提出了一种基于正则化和对抗训练的跨语言模型，能够在口语理解系统中实现单词层面和句子层面的跨语言表示对齐，并在少量数据和零样本情况下实现比当前最先进方法更好的性能表现。

Sep, 2020

通过带不确定性估计的自我学习提升跨语言迁移

提出了一种基于自学习的框架，结合目标语言的未标记数据和不确定性评估方法，使用三种不同的不确定性评估方法对跨语种传递的具体情况进行了分析，并在包括 40 种语言的两个跨语种任务中评估了该框架，其中包括命名实体识别和自然语言推理，并在 NER 和 NLI 方面的平均性能分别超过了 10 F1 和 2.5 准确度得分的基线模型。

Sep, 2021

一种用于跨语言词对齐的判别式神经模型

利用新型鉴别性词汇对齐模型，结合变压器机器翻译模型，在少量标注例子下评估英汉及英阿拉伯语言对齐，相比无监督基线模型性能得到提升（11-27 F1）。外部方面，通过对中文命名实体识别（NER）标签的投影，我们验证了对齐模型的有效性。最后，进行消融分析和注释实验，支持未来手动对齐的使用可行性和实用性。

Sep, 2019

利用无监督多语言上下文化表示进行低资源序列标注

本文提出了多语言语言模型与深度语义对准（MLMA），用于产生跨语言标注的语言无关表示，方法不需要平行数据或一个词一个词匹配，只需要单语语料库，并利用深度上下文表示。实验结果表明，本方法在欧洲语言以及英语和汉语等远距离语言对上实现了新的最新 NER 和 POS 性能。

Oct, 2019

基于多语言 BERT 的跨语言跨度预测监督式词对齐方法

本文提出了一种基于跨语言跨度预测的新型监督词对齐方法，使用基于多语言 BERT 的 SQuAD v2.0 风格问答任务解决了此问题，并在中英、日、德、罗、法等五个词对齐数据集上实验证明，该方法显著优于以前的监督和非监督方法，而无需使用双语语料进行预训练。

Apr, 2020