跨语言转移的令人沮丧的简单标签投影
零 - shot 跨语言迁移利用多语言 LLMs 已成为一种流行的学习范式,适用于低资源语言没有标记的训练数据。然而,在涉及单词和短语细粒度预测的 NLP 任务中,零 - shot 跨语言迁移学习性能远远落后于有监督的微调方法。因此,通过使用翻译和标签映射来进一步提高性能是很常见的。本文中,我们探索了一种通过限制解码进行标签映射的新方法,克服了先前提到的问题。我们的新方法不仅能保持翻译文本的质量,还具有适用于训练和测试数据的多样性。我们在两个跨语言迁移任务上进行评估,分别是命名实体识别和事件论证抽取,涵盖了 20 种语言。结果表明,我们的方法比现有的基于标记的方法具有更好的性能,并且比依赖于外部词对齐的其他标签映射方法表现更好。
Feb, 2024
本文提出了一种新的基于预训练文本到文本语言模型和最先进的机器翻译技术的注释投影方法[T-Projection],通过将标签投影任务分解成候选集生成步骤和候选集选择步骤来自动产生标注数据,得到的结果在三个下游任务和五种不同语言中的平均 F1 分数比以前的方法提高了 8 个百分点以上。
Dec, 2022
通过使用 CLAP 方法,首先将文本翻译成目标语言,并使用翻译后的文本作为上下文对标签进行语境翻译,从而提高了翻译标签的准确性。在事件论证提取等结构提取任务上,CLAP 相较于其他方法在中文和阿拉伯语 ACE05 数据集上提高了 2-2.5 个 F1 分数。
Sep, 2023
本文提出两种弱监督的跨语言实体标识方法,分别基于注释投影和词嵌入,无需使用目标语言的人工注释数据。同时,我们设计了两种协同解码方案,将两个基于投影的方法的输出相结合,评估表明这种组合性的方法优于其他三种弱监督方法。
Jul, 2017
本文提出一种新的序列标注方法,使用显式的去偏置层对跨语言映射的错误进行更正,通过对一个拥有金标准标注和一个拥有投影标注的语料库进行联合学习,在仅有 1000 个金标准标注的情况下,加上更丰富的平行数据,系统在 8 个低资源设置和两个真实低资源语言,马达加斯加语和基尼阿瓦达语方面等于或超过了最先进技术水平。
Jul, 2016
本文提出了基于 bitext 资源将多语种低监督学习领域的已标注语料库知识转移的一种新方法,该方法使用推断的模型期望而不是标签来指导学习。在标注数据不足的情况下,评估结果表明,在标准的中英和德英 NER 数据集上,我们的方法表现出 64%和 60%的 F1 得分。与监督 CRFs 相比,实现相同准确性需要 12k 和 1.5k 标记句子。此外,当与标记示例结合使用时,我们的方法在中文 OntoNotes 和德语 CoNLL-03 数据集上获得了迄今为止报告的最佳结果。
Oct, 2013
本文探讨使用平行数据从资源丰富语言的监督注释中进行语义角色标注的注释投影问题,并提出了一种转移方法来提高迭代自启动方法的质量。实验结果表明,与标准注释投影方法相比,我们的方法可以获得 3.5 个绝对标记 F 分数的提高。
Oct, 2017
在 FrameNet 范例下,本文提出了一种基于注释投射的通用框架,它可以相对廉价地自动引发新语言中的角色语义标注。该框架利用了词汇和句法信息来设计投影模型,实验结果表明可以在英汉平行语料库中自动诱导具有高准确度的语义角色标注。
Jan, 2014
本研究提出了一种新的模型来加强文本表达,进而实现信息提取中的 span extraction 任务,并在三个任务,flat NER、nested NER、event detection 中达到了最佳表现,显著减少了训练和推理时间。
Nov, 2021