无监督的句法成分分析中监督角色的作用
该研究使用无标签口语句子和未成对文本数据进行无监督组成语法分析,比较了通过级联自动语音识别和无监督解析器方法以及直接对连续的词级语音表示进行无监督解析器训练的方法,发现后者解析效果更好。此外,准确的分割也可以实现口语句子的准确解析。最后,该研究显示了无需显式归纳偏差的情况下,直接方法也可以正确学习头波方向性。
Mar, 2023
该研究提出了一种基于语法规则的非监督句法树生成方法,利用了语言的通用语法知识,采用强化学习和自编码器等技术,在 MNLI 和 WSJ 两个基准数据集上实现了最好的结果。
May, 2021
本文提出了一种基于无监督成分测试的无监督解析方法。通过使用一组转换和一个无监督的神经接受模型来制定无监督解析器,以生成给定句子的树,通过聚合其成分测试判断来评分。并且通过反复改进预测出的树和提高语法性模型之间的相互作用,进一步提高了准确性。
Oct, 2020
本文提出了 UPOA 和 UPIO 两种无监督的成分句法分析模型,其中 UPIO 利用内部关联和外部关联评分估计跨度的可能性,利用少量注释的树来学习更好的线性投影矩阵进行句法分析,实验表明,这两种方法都比之前的方法更有效。
Jun, 2022
本研究提出了一种基于无监督解析方法的分类器引导技术,通过内部和外部分类器的自我训练和协同训练使两者的精确度得到提高,实现了 63.1 F1 值,较先前工作获得了更好的结果。
Oct, 2021
本研究旨在提高在训练数据中标注少量标签的情况下诱导策略。我们发现最具信息量的语言成分是树状结构中更高层的节点,通常代表复杂的名词短语和句子从句,这些仅占所有成分的 20%。针对标注数据稀疏(例如仅有高层成分标签)的语法诱导,提出了一种适应策略,可以产生与从完全标注的语料库诱导的语法几乎一样好的语法。我们的结果表明,为了取代人工注释员,部分解析器必须能够自动提取更高层次的成分,而不是基本名词短语。
May, 1999
我们研究了无监督的成分句法分析任务,该任务将句子中的单词和短语组织成层次结构,而不使用语言学注释数据。我们观察到现有的无监督解析器捕捉了句法结构的不同方面,可以利用这些方面来提高无监督解析的性能。为此,我们提出了 “树平均” 方法,并进一步提出了一种新颖的无监督解析集成方法。为了提高推理效率,我们将集成的知识进一步融入到一个学生模型中;这种先集成后蒸馏的过程是缓解常见多老师蒸馏方法中存在的过度平滑问题的一种有效方法。实验证明,我们的方法超过了所有先前的方法,始终表现出其在各种运行,不同的集成组件和领域转移条件下的有效性和鲁棒性。
Oct, 2023
本研究使用 Transformer-based pre-trained language models 并提出一种全新的无监督分析方法,通过引入一个高排名头部的集合,用于从语法角度分析 PLMs 的学习知识,从而提取出 PLMs 的句法知识,并用这些知识来训练神经 PCFG,最终与人类注释的语法树库得到比较。
Oct, 2020
本文介绍了一种基于 label 和 span 独立评分的最小神经模型,并证明了该模型不仅与经典的动态规划技术兼容,而且还支持一种基于递归分割的新颖贪心自顶向下推理算法。经实验证明,两种预测方案竞争力强,并且与得分模型的基本扩展相结合,能够实现 Penn Treebank 的单模型最优性能(91.79 F1),并在法语 Treebank 上获得强大的性能(82.23 F1)。
May, 2017