用单个深度神经网络实现的依赖关系解析器,无需词性标注即可直接生成依存关系及其标签,经过多任务学习和适当的正则化和额外监督训练,在没有语言特征的情况下,在斯拉夫语 UD 树库中表现为最高准确性。
Sep, 2016
本篇论文研究了是否可以利用大规模多语言语料库(multilingual BERT)上预训练的现成双向深度句子表征,开发出一种无监督的通用句法分析器,以支持低资源语言的处理。实验结果表明,我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统,但仍存在一些限制,如句法分析精度仍然随训练语言的变化而变化,并且在某些目标语言中,零 - shot 转移在所有测试条件下都无法成功,这引发了人们对整个方法的普适性问题的担忧。
Oct, 2019
本文提出了一种基于多任务学习的通用框架,将多类型树库结合起来,通过多级参数共享提高依存解析模型的性能,实验表明该方法可以有效地利用任意源树库来提高目标解析模型的性能。
Jun, 2016
本文介绍了在半监督下对自然语言句子进行解析的工作,重点是去除词汇的依赖关系解析器的多源跨语言转移。首先,评估了树库注释风格对解析性能的影响,重点是介词附着风格。然后,我们提出了 KLcpos3,一种经验性的语言相似度测量方法,专门用于多源去词汇解析器转移中源解析器加权。最后,基于训练解析器模型的插值,引入了一种新的资源组合方法。
Jun, 2015
介绍了 Uppsala 系统,它是一个由三个部分构成的流水线,可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型,我们极大地减少了模型数量,最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。
Sep, 2018
本文探讨了如何通过在不同语言中打标注的数据来学习语义解析器的分布式逻辑形式表示,以提高特定语言下单语义解析器的性能,并在标准的多语言 GeoQuery 数据集上得到了改进的结果。
Jun, 2018
提出了一种基于转换的方法,通过训练单个模型,可以有效地解析任何输入句子,支持连续 / 投影和不连续 / 非投影的句法结构,并证明了这两种句法形式可以在训练过程中互相受益,提高了在多个基准测试中的准确性,如英语和中文 Penn 树库以及德语 NEGRA 和 TIGER 数据集。
Sep, 2020
本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究,结果显示这些方法可以显著提高性能,特别是在最低资源的情况下,并证明了模型的预训练数据与目标语言变体之间的关系的重要性。
本研究开发了一种基于图表的方法和有效的 top-K 集成技术,通过应用这种方法到多语言的预训练语言模型中,可以在集成和语言无关的方式下诱导出九种语言的句子的非平凡解析,同时发现了普遍的注意力头,这些头与句法信息的感知是一致的,验证了该方法的鲁棒性。
Apr, 2020
本研究的主要目的是使一个语义解析器模型从英语语言转移到其他多种语言和领域上,通过机器翻译、释义、多语言预训练模型,我们得出一个基于 Transformer 的语义解析器,用于在德语和中文中准确解析。实验表明,机器翻译结合多组 MT 引擎释义可以近似于多种语言的训练数据,同时我们还成功地将训练数据减半,最终准确度仅低于完整翻译 2%。