使用部分标注训练依存句法分析器
通过结构化感知机训练和使用大量自动解析的句子来学习神经网络表示,我们的解析器在 Penn Treebank 数据集上达到了 94.26%的未标记和 92.41%的标记附加精度,是迄今为止在 Stanford Dependencies 上最佳的精度,并提供深入的剖析分析以确定模型的哪些方面提供了最大的准确性增益。
Jun, 2015
本文提出了一种用于自动检测依赖解析语料库中注释不匹配的方法,以及三种自动转换注释不匹配的方法,并通过重新训练两种依赖解析器的实验证明应用这些方法可以明显地提高性能。
Jan, 2022
本研究针对资源匮乏的语言环境下,针对高度分析形态的自然语言(MRLs)的依赖句法分析任务,提出了预训练的简单辅助任务方法,实验结果表明,提出的方法使得在 10 种低资源语言环境下实验得到了稳定的提高
Feb, 2021
本文介绍了在半监督下对自然语言句子进行解析的工作,重点是去除词汇的依赖关系解析器的多源跨语言转移。首先,评估了树库注释风格对解析性能的影响,重点是介词附着风格。然后,我们提出了 KLcpos3,一种经验性的语言相似度测量方法,专门用于多源去词汇解析器转移中源解析器加权。最后,基于训练解析器模型的插值,引入了一种新的资源组合方法。
Jun, 2015
本研究旨在评估迁移学习在增强爪哇语的依存解析中的功效。使用了包括爪哇语在内的 100 多种语言的依存树库,提出了两种学习策略:迁移学习和分层迁移学习。结果表明,我们的最佳模型采用了分层迁移学习方法,相比基准模型,UAS 和 LAS 评估指标均提高了 10%。
Jan, 2024
为了改善句法解析器,我们提出了一种新的潜变量生成模型,可以使用大量的未标记文本来进行半监督学习,并通过可微的动态规划来提高解析器的准确性。
Jul, 2018
使用多语言模型进行依赖解析,通过使用多语言单词聚类和嵌入,令解析器能够在多种语言中进行有效解析,同时基于语言普遍规律和类型相似性实现跨语言推断,从而使其能够更有效地从有限的注释中进行学习。
Feb, 2016
提出了一种基于转换的方法,通过训练单个模型,可以有效地解析任何输入句子,支持连续 / 投影和不连续 / 非投影的句法结构,并证明了这两种句法形式可以在训练过程中互相受益,提高了在多个基准测试中的准确性,如英语和中文 Penn 树库以及德语 NEGRA 和 TIGER 数据集。
Sep, 2020
本文提出了一种自我训练算法 Deep Contextualized Self-training (DCST),利用序列标注的表示模型来解决大量标注数据的问题,并通过控制机制将这些模型集成到基础解析器中,并在多语言实验中取得了优异的成绩。
Nov, 2019