我们提出了一种新的成分分析模型,将分析问题转化为一系列指向任务,支持高效的自上而下编码和学习目标。实验表明,我们的方法在不使用预训练模型的情况下取得 92.78 F1 的结果,使用预训练 BERT,达到了 95.48 F1 和最先进的技术水平相当。此外,我们的方法也在多语种成分分析领域实现了最新的技术进展。
Jun, 2020
本文介绍了一种基于 label 和 span 独立评分的最小神经模型,并证明了该模型不仅与经典的动态规划技术兼容,而且还支持一种基于递归分割的新颖贪心自顶向下推理算法。经实验证明,两种预测方案竞争力强,并且与得分模型的基本扩展相结合,能够实现 Penn Treebank 的单模型最优性能(91.79 F1),并在法语 Treebank 上获得强大的性能(82.23 F1)。
May, 2017
该研究使用无标签口语句子和未成对文本数据进行无监督组成语法分析,比较了通过级联自动语音识别和无监督解析器方法以及直接对连续的词级语音表示进行无监督解析器训练的方法,发现后者解析效果更好。此外,准确的分割也可以实现口语句子的准确解析。最后,该研究显示了无需显式归纳偏差的情况下,直接方法也可以正确学习头波方向性。
Mar, 2023
该研究提出了一种基于语法规则的非监督句法树生成方法,利用了语言的通用语法知识,采用强化学习和自编码器等技术,在 MNLI 和 WSJ 两个基准数据集上实现了最好的结果。
May, 2021
本研究使用 Transformer-based pre-trained language models 并提出一种全新的无监督分析方法,通过引入一个高排名头部的集合,用于从语法角度分析 PLMs 的学习知识,从而提取出 PLMs 的句法知识,并用这些知识来训练神经 PCFG,最终与人类注释的语法树库得到比较。
Oct, 2020
本文提出了一种利用跨度注意力和分类跨度注意力的神经图表句法分析方法,通过加入 n-gram 信息,得以更好的建模上下文信息,并在阿拉伯语、中文和英语解析中都取得了最先进的性能。
本文分析了几种最近的无监督组分句法分析模型,介绍了强大的基准线,并提出了一种基于少量标注数据的组分句法分析方法,这种方法可以通过简单的数据增强和自我训练进一步提高性能。这表明,为了得出公正的结论,我们应当仔细考虑用于模型开发的标注数据量。
采用领域无关的注意力增强序列到序列模型在一大合成语料库的标注基础上取得了最先进的效果,训练小规模人工标注的数据集时也达到了标准解析器的表现,且较大程度上提高了数据利用率和处理速度。
Dec, 2014
我们研究了无监督的成分句法分析任务,该任务将句子中的单词和短语组织成层次结构,而不使用语言学注释数据。我们观察到现有的无监督解析器捕捉了句法结构的不同方面,可以利用这些方面来提高无监督解析的性能。为此,我们提出了 “树平均” 方法,并进一步提出了一种新颖的无监督解析集成方法。为了提高推理效率,我们将集成的知识进一步融入到一个学生模型中;这种先集成后蒸馏的过程是缓解常见多老师蒸馏方法中存在的过度平滑问题的一种有效方法。实验证明,我们的方法超过了所有先前的方法,始终表现出其在各种运行,不同的集成组件和领域转移条件下的有效性和鲁棒性。
Oct, 2023
运用大型语言模型探索生成线性化树解决成分句法分析任务,并通过实验证明模型的性能、泛化能力和挑战。