使用部分标注训练依存句法分析器

Sep, 2016

使用部分标注训练依存句法分析器

Training Dependency Parsers with Partial Annotation

Zhenghua Li, Yue Zhang, Jiayuan Chao, Min Zhang

TL;DR本文通过对三种主流的依存句法分析器进行描述和比较，提出了两种直接使用部分注释数据（PA）进行训练的方法，其基于森林目标和受限解码的思想，研究了如何通过 PA 训练统计模型的问题。实验证明，基于 LLGPar 的方法在学习 PA 方面最为有效，而 LTPar 在表现上落后于基于图的对照组。

Abstract

Recently, these has been a surge on studying how to obtain partially annotated data for model supervision. However, there still lacks a systematic study on how to train statistical models with partial annotation (PA). Taking →

partially annotated data statistical models dependency parsing log-linear graph-based parser linear transition-based parser

发现论文，激发创造

神经网络基于转移的结构化训练解析

通过结构化感知机训练和使用大量自动解析的句子来学习神经网络表示，我们的解析器在 Penn Treebank 数据集上达到了 94.26％的未标记和 92.41％的标记附加精度，是迄今为止在 Stanford Dependencies 上最佳的精度，并提供深入的剖析分析以确定模型的哪些方面提供了最大的准确性增益。

Jun, 2015

句法依赖注释差异的自动更正

本文提出了一种用于自动检测依赖解析语料库中注释不匹配的方法，以及三种自动转换注释不匹配的方法，并通过重新训练两种依赖解析器的实验证明应用这些方法可以明显地提高性能。

Jan, 2022

全局贪心依存句法分析

本文提出了一种能够同时进行全局特征提取和线性时间推理的依存句法分析模型，支持投影和非投影句子的解析，经检验表现良好。

Nov, 2019

少量预训练大有裨益：针对低资源词形丰富语言的依存句法分析任务案例研究

本研究针对资源匮乏的语言环境下，针对高度分析形态的自然语言（MRLs）的依赖句法分析任务，提出了预训练的简单辅助任务方法，实验结果表明，提出的方法使得在 10 种低资源语言环境下实验得到了稳定的提高

Feb, 2021

半监督方法解析自然语言句子

本文介绍了在半监督下对自然语言句子进行解析的工作，重点是去除词汇的依赖关系解析器的多源跨语言转移。首先，评估了树库注释风格对解析性能的影响，重点是介词附着风格。然后，我们提出了 KLcpos3，一种经验性的语言相似度测量方法，专门用于多源去词汇解析器转移中源解析器加权。最后，基于训练解析器模型的插值，引入了一种新的资源组合方法。

Jun, 2015

爪哇语依存分析的跨语言迁移学习

本研究旨在评估迁移学习在增强爪哇语的依存解析中的功效。使用了包括爪哇语在内的 100 多种语言的依存树库，提出了两种学习策略：迁移学习和分层迁移学习。结果表明，我们的最佳模型采用了分层迁移学习方法，相比基准模型，UAS 和 LAS 评估指标均提高了 10%。

Jan, 2024

可微扰动和解析：用结构化变分自编码器进行半监督解析

为了改善句法解析器，我们提出了一种新的潜变量生成模型，可以使用大量的未标记文本来进行半监督学习，并通过可微的动态规划来提高解析器的准确性。

Jul, 2018

众多语言，一种解析器

使用多语言模型进行依赖解析，通过使用多语言单词聚类和嵌入，令解析器能够在多种语言中进行有效解析，同时基于语言普遍规律和类型相似性实现跨语言推断，从而使其能够更有效地从有限的注释中进行学习。

Feb, 2016

多任务指针网络用于多表现解析

提出了一种基于转换的方法，通过训练单个模型，可以有效地解析任何输入句子，支持连续 / 投影和不连续 / 非投影的句法结构，并证明了这两种句法形式可以在训练过程中互相受益，提高了在多个基准测试中的准确性，如英语和中文 Penn 树库以及德语 NEGRA 和 TIGER 数据集。

Sep, 2020

基于深度上下文自训练的低资源依存句法分析

本文提出了一种自我训练算法 Deep Contextualized Self-training (DCST)，利用序列标注的表示模型来解决大量标注数据的问题，并通过控制机制将这些模型集成到基础解析器中，并在多语言实验中取得了优异的成绩。

Nov, 2019