利用翻译和句法信息传递语义角色转移
使用基于注释投影的转移方法,开发了一种基于依赖关系的语义角色标注系统,在只有平行数据可用的语言中,不需要其他监督的语言信息。相比之前的工作,我们只使用了词和字符特征来避免使用监督的特征。我们的深度模型考虑使用基于字符的表示以及无监督的词干嵌入来减轻对监督特征的需求。我们的实验在通用命题库的 7 种语言中有 6 种优于使用监督词汇 - 句法特征的最先进方法。
Apr, 2019
在 FrameNet 范例下,本文提出了一种基于注释投射的通用框架,它可以相对廉价地自动引发新语言中的角色语义标注。该框架利用了词汇和句法信息来设计投影模型,实验结果表明可以在英汉平行语料库中自动诱导具有高准确度的语义角色标注。
Jan, 2014
本文提出了一种简单而有效的方法,可以在没有大量翻译数据的情况下进行跨语言的句法转移,这种方法基于三个步骤:1)推导跨语言单词簇的方法,可用于多语言解析器;2)将目标语言的词汇信息转移到源语言树库;3)将这些步骤与 Rasooli 和 Collins(2015)的密度驱动注释投影方法相结合。该方法在多个语言中实现了针对先前工作的最新进展,在只使用比利时圣经作为翻译数据的情况下,与以前的工作相比,Europarl 语料库的结果表现出额外的提升。最后,作者在通用依赖语料库的 38 个数据集上进行了结果展示。
Oct, 2016
本文提出了一种基于语料库翻译的新方法,通过从源标准 SRL 注释中构建高质量的目标语言训练数据集,以解决低资源语言缺乏注释数据集的挑战,并且得到了良好的效果。
Apr, 2020
本文提出了一种生成模型,通过结构化的正则先验利用标记源数据和未标记目标数据联合学习源模型和目标模型的参数来解决在距离较远的语言之间跨语言迁移的问题,并使用可逆投影来学习一种新的公共嵌入空间,以对不完美的跨语言词嵌入输入进行补偿。该方法在使用英语作为唯一源语料库并传输到广泛的目标语言的通用依赖树库上进行评估,在与英语相距较远的该数据集中的 10 种语言中,我们的方法相较于使用最先进的判别模型的直接转移方法,在词性标注和依赖分析方面分别获得了平均 5.2%和 8.3%的绝对改善。
Jun, 2019
零 - shot 跨语言迁移利用多语言 LLMs 已成为一种流行的学习范式,适用于低资源语言没有标记的训练数据。然而,在涉及单词和短语细粒度预测的 NLP 任务中,零 - shot 跨语言迁移学习性能远远落后于有监督的微调方法。因此,通过使用翻译和标签映射来进一步提高性能是很常见的。本文中,我们探索了一种通过限制解码进行标签映射的新方法,克服了先前提到的问题。我们的新方法不仅能保持翻译文本的质量,还具有适用于训练和测试数据的多样性。我们在两个跨语言迁移任务上进行评估,分别是命名实体识别和事件论证抽取,涵盖了 20 种语言。结果表明,我们的方法比现有的基于标记的方法具有更好的性能,并且比依赖于外部词对齐的其他标签映射方法表现更好。
Feb, 2024
我们探究了一种新的方法,即将来自一对语言的资源结合起来构建一种多语言语义角色标注器,在多项语言中取得了比单语言基线更好的 SRL 性能,从分析多语言模型可以看出它在低资源环境下具有优势。
May, 2018
本文提出了一种新的基于预训练文本到文本语言模型和最先进的机器翻译技术的注释投影方法[T-Projection],通过将标签投影任务分解成候选集生成步骤和候选集选择步骤来自动产生标注数据,得到的结果在三个下游任务和五种不同语言中的平均 F1 分数比以前的方法提高了 8 个百分点以上。
Dec, 2022
本文提出一种新的序列标注方法,使用显式的去偏置层对跨语言映射的错误进行更正,通过对一个拥有金标准标注和一个拥有投影标注的语料库进行联合学习,在仅有 1000 个金标准标注的情况下,加上更丰富的平行数据,系统在 8 个低资源设置和两个真实低资源语言,马达加斯加语和基尼阿瓦达语方面等于或超过了最先进技术水平。
Jul, 2016
本文分析了在 42 种语言和三个任务(问答,命名实体识别,事件抽取)上,将标注数据转换为多种语言的效果以及不同的标签投影方法,发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。
Nov, 2022