无监督的句法成分分析中监督角色的作用

EMNLPOct, 2020

无监督的句法成分分析中监督角色的作用

On the Role of Supervision in Unsupervised Constituency Parsing

Haoyue Shi, Karen Livescu, Kevin Gimpel

TL;DR本文分析了几种最近的无监督组分句法分析模型，介绍了强大的基准线，并提出了一种基于少量标注数据的组分句法分析方法，这种方法可以通过简单的数据增强和自我训练进一步提高性能。这表明，为了得出公正的结论，我们应当仔细考虑用于模型开发的标注数据量。

Abstract

We analyze several recent unsupervised constituency parsing models, which are tuned with respect to the parsing $F_1$ score on the Wall Street Journal (WSJ) development set (1,700 sentences). We introduce strong baselines for them, by training an existing →

unsupervised constituency parsing models supervised parsing model few-shot parsing data augmentation labeled data

发现论文，激发创造

基于连续语音信号的无监督组成结构句法分析中的级联和直接方法

该研究使用无标签口语句子和未成对文本数据进行无监督组成语法分析，比较了通过级联自动语音识别和无监督解析器方法以及直接对连续的词级语音表示进行无监督解析器训练的方法，发现后者解析效果更好。此外，准确的分割也可以实现口语句子的准确解析。最后，该研究显示了无需显式归纳偏差的情况下，直接方法也可以正确学习头波方向性。

Mar, 2023

规则增强的无监督短语结构句法分析

该研究提出了一种基于语法规则的非监督句法树生成方法，利用了语言的通用语法知识，采用强化学习和自编码器等技术，在 MNLI 和 WSJ 两个基准数据集上实现了最好的结果。

May, 2021

通过成分测试的无监督解析

本文提出了一种基于无监督成分测试的无监督解析方法。通过使用一组转换和一个无监督的神经接受模型来制定无监督解析器，以生成给定句子的树，通过聚合其成分测试判断来评分。并且通过反复改进预测出的树和提高语法性模型之间的相互作用，进一步提高了准确性。

Oct, 2020

预训练语言模型的自监督和小样本解析

本文提出了 UPOA 和 UPIO 两种无监督的成分句法分析模型，其中 UPIO 利用内部关联和外部关联评分估计跨度的可能性，利用少量注释的树来学习更好的线性投影矩阵进行句法分析，实验表明，这两种方法都比之前的方法更有效。

Jun, 2022

使用弱监督联合训练无监督句法分析器

本研究提出了一种基于无监督解析方法的分类器引导技术，通过内部和外部分类器的自我训练和协同训练使两者的精确度得到提高，实现了 63.1 F1 值，较先前工作获得了更好的结果。

Oct, 2021

融合弱监督和主动监督用于语义解析

该研究论文针对通过自然语言指令进行解析的语义解析器，在利用弱监督学习时引入主动学习以提高模型性能的问题进行了研究，并在两个数据集上进行了实验。

Nov, 2019

使用具有有限词组信息的训练数据进行监督式语法归纳

本研究旨在提高在训练数据中标注少量标签的情况下诱导策略。我们发现最具信息量的语言成分是树状结构中更高层的节点，通常代表复杂的名词短语和句子从句，这些仅占所有成分的 20％。针对标注数据稀疏（例如仅有高层成分标签）的语法诱导，提出了一种适应策略，可以产生与从完全标注的语料库诱导的语法几乎一样好的语法。我们的结果表明，为了取代人工注释员，部分解析器必须能够自动提取更高层次的成分，而不是基本名词短语。

May, 1999

无监督成分句法分析的集成蒸馏

我们研究了无监督的成分句法分析任务，该任务将句子中的单词和短语组织成层次结构，而不使用语言学注释数据。我们观察到现有的无监督解析器捕捉了句法结构的不同方面，可以利用这些方面来提高无监督解析的性能。为此，我们提出了 “树平均” 方法，并进一步提出了一种新颖的无监督解析集成方法。为了提高推理效率，我们将集成的知识进一步融入到一个学生模型中；这种先集成后蒸馏的过程是缓解常见多老师蒸馏方法中存在的过度平滑问题的一种有效方法。实验证明，我们的方法超过了所有先前的方法，始终表现出其在各种运行，不同的集成组件和领域转移条件下的有效性和鲁棒性。

Oct, 2023

基于自注意力头的无监督成分句法分析

本研究使用 Transformer-based pre-trained language models 并提出一种全新的无监督分析方法，通过引入一个高排名头部的集合，用于从语法角度分析 PLMs 的学习知识，从而提取出 PLMs 的句法知识，并用这些知识来训练神经 PCFG，最终与人类注释的语法树库得到比较。

Oct, 2020

一种基于句法跨度的最小神经网络成分句法分析器

本文介绍了一种基于 label 和 span 独立评分的最小神经模型，并证明了该模型不仅与经典的动态规划技术兼容，而且还支持一种基于递归分割的新颖贪心自顶向下推理算法。经实验证明，两种预测方案竞争力强，并且与得分模型的基本扩展相结合，能够实现 Penn Treebank 的单模型最优性能（91.79 F1），并在法语 Treebank 上获得强大的性能（82.23 F1）。

May, 2017