本文探讨使用平行数据从资源丰富语言的监督注释中进行语义角色标注的注释投影问题,并提出了一种转移方法来提高迭代自启动方法的质量。实验结果表明,与标准注释投影方法相比,我们的方法可以获得 3.5 个绝对标记 F 分数的提高。
Oct, 2017
使用基于注释投影的转移方法,开发了一种基于依赖关系的语义角色标注系统,在只有平行数据可用的语言中,不需要其他监督的语言信息。相比之前的工作,我们只使用了词和字符特征来避免使用监督的特征。我们的深度模型考虑使用基于字符的表示以及无监督的词干嵌入来减轻对监督特征的需求。我们的实验在通用命题库的 7 种语言中有 6 种优于使用监督词汇 - 句法特征的最先进方法。
Apr, 2019
本文提出了一种新的基于预训练文本到文本语言模型和最先进的机器翻译技术的注释投影方法[T-Projection],通过将标签投影任务分解成候选集生成步骤和候选集选择步骤来自动产生标注数据,得到的结果在三个下游任务和五种不同语言中的平均 F1 分数比以前的方法提高了 8 个百分点以上。
Dec, 2022
本文提出两种弱监督的跨语言实体标识方法,分别基于注释投影和词嵌入,无需使用目标语言的人工注释数据。同时,我们设计了两种协同解码方案,将两个基于投影的方法的输出相结合,评估表明这种组合性的方法优于其他三种弱监督方法。
Jul, 2017
本文提出了一种基于语料库翻译的新方法,通过从源标准 SRL 注释中构建高质量的目标语言训练数据集,以解决低资源语言缺乏注释数据集的挑战,并且得到了良好的效果。
Apr, 2020
本研究提出了一种跨语言标注投影方法,用于无需依赖单一语言学工具的开放域关系提取系统,同时发布了来自维基百科中 61 种语言的手动注释和提取的关系。
Mar, 2015
本研究提出了一种自动构建四种语言的 SRL 语料库的方法,并使用高质量的机器翻译和多语种 BERT 模型在这四种语言之间导入一致的谓词和角色注释,经过实验表明这种方法使得弱势语言的表现得到了提高。
Oct, 2020
本文分析了在 42 种语言和三个任务(问答,命名实体识别,事件抽取)上,将标注数据转换为多种语言的效果以及不同的标签投影方法,发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。
Nov, 2022
提出一种跨语言编码器 - 解码器模型,用于在资源匮乏的目标语言中同时翻译和生成带有语义角色标注的句子。该方法可用于单语、多语言和跨语言环境,并能生成基于依存和跨度的 SRL 注释,通过使用生成的数据进行增量训练可提高资源匮乏语言的标注性能。
Aug, 2019
本文提出了一种基于注释映射的方法,通过利用一个源语言和一个源语言以及目标语言的平行语料库中的注释,针对英语作为源语言的情况,在意大利语、西班牙语、德语和中文等目标语言上训练分析器。此外,提出了一种利用英语金标注释的评估方法,这种方法不需要访问目标语言的金标注释,这是通过反转投影流程实现的。
Apr, 2017