基于集成的无监督非连续性短语结构分析方法

Feb, 2024

基于集成的无监督非连续性短语结构分析方法

Ensemble-Based Unsupervised Discontinuous Constituency Parsing by Tree Averaging

Behzad Shayegh, Yuqiao Wen, Lili Mou

TL;DR我们提出了一种新的集成方法来处理无监督的不连续句法分析问题，通过对现有的不连续解析器的多次运行进行平均预测，稳定并提升性能。同时，我们还提供了对于不同二进制和连续性设置下的树平均的综合计算复杂性分析，以及一种高效的精确算法来解决这个任务，实验结果表明我们的方法在三个数据集上优于所有基准，并对我们的方法进行了深入分析。

Abstract

We address unsupervised discontinuous constituency parsing, where we observe a high variance in the performance of the only previous model. We propose to build an →

unsupervised discontinuous constituency parsing ensemble computational complexity analysis exact algorithm

发现论文，激发创造

无监督成分句法分析的集成蒸馏

我们研究了无监督的成分句法分析任务，该任务将句子中的单词和短语组织成层次结构，而不使用语言学注释数据。我们观察到现有的无监督解析器捕捉了句法结构的不同方面，可以利用这些方面来提高无监督解析的性能。为此，我们提出了 “树平均” 方法，并进一步提出了一种新颖的无监督解析集成方法。为了提高推理效率，我们将集成的知识进一步融入到一个学生模型中；这种先集成后蒸馏的过程是缓解常见多老师蒸馏方法中存在的过度平滑问题的一种有效方法。实验证明，我们的方法超过了所有先前的方法，始终表现出其在各种运行，不同的集成组件和领域转移条件下的有效性和鲁棒性。

Oct, 2023

基于跨度的不连续组成句法分析：一系列时间复杂度从 O (n^6) 降至 O (n^3) 的准确基于图表的算法家族

提出了一种用于跨度句法分析的基于图表的新算法，可以处理块度为 2 的不连续依存树，包括病态嵌套结构，在时间复杂度为 O (n^(6~3)) 之间构建其变异版本，并在德语和英语树库上评估其性能，包括预先训练的词嵌入和基于 BERT 的神经网络。

Mar, 2020

通过成分测试的无监督解析

本文提出了一种基于无监督成分测试的无监督解析方法。通过使用一组转换和一个无监督的神经接受模型来制定无监督解析器，以生成给定句子的树，通过聚合其成分测试判断来评分。并且通过反复改进预测出的树和提高语法性模型之间的相互作用，进一步提高了准确性。

Oct, 2020

基于连续语音信号的无监督组成结构句法分析中的级联和直接方法

该研究使用无标签口语句子和未成对文本数据进行无监督组成语法分析，比较了通过级联自动语音识别和无监督解析器方法以及直接对连续的词级语音表示进行无监督解析器训练的方法，发现后者解析效果更好。此外，准确的分割也可以实现口语句子的准确解析。最后，该研究显示了无需显式归纳偏差的情况下，直接方法也可以正确学习头波方向性。

Mar, 2023

指向式高效组成句法分析

我们提出了一种新的成分分析模型，将分析问题转化为一系列指向任务，支持高效的自上而下编码和学习目标。实验表明，我们的方法在不使用预训练模型的情况下取得 92.78 F1 的结果，使用预训练 BERT，达到了 95.48 F1 和最先进的技术水平相当。此外，我们的方法也在多语种成分分析领域实现了最新的技术进展。

Jun, 2020

CPTAM: 句法分析树聚合方法

本文提出了一种基于真相发现想法的分句结构树聚合方法，分别从结构聚合和成分标签聚合两步着手，结果表明该方法相较于现有聚合基线方法有较好的聚合表现，并且得到的权重能充分评估常见的句法结构分析方法。

Jan, 2022

一种基于句法跨度的最小神经网络成分句法分析器

本文介绍了一种基于 label 和 span 独立评分的最小神经模型，并证明了该模型不仅与经典的动态规划技术兼容，而且还支持一种基于递归分割的新颖贪心自顶向下推理算法。经实验证明，两种预测方案竞争力强，并且与得分模型的基本扩展相结合，能够实现 Penn Treebank 的单模型最优性能（91.79 F1），并在法语 Treebank 上获得强大的性能（82.23 F1）。

May, 2017

神经组合成分解析

该研究提出了两个快速神经组合模型，用于句法分析，分别是二元模型和多分支模型，它们的理论复杂度是次二次的，实际复杂度较低，其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数，并以 1327.2 个句子 / 秒的速度进行解析。同时，该模型结合 XLNet，准确率接近英文句法分析的最新水平，并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank（日本）在训练和推理过程中的句法倾向和头向性。

Jun, 2021

非词汇化基于转移的不连续性成分句法分析

本研究比较基于词汇化和非词汇化的句法分析模型的性能表现，提出了一种基于结构 - 标签转换系统和双向 LSTM 评分系统的非词汇化转换型分析器，结果表明非词汇化模型在处理不连续组分句法结构时具有更好的性能表现，尤其是在英语和德语的领域中。

Feb, 2019

使用指针网络重排序将不连续转换为连续解析

通过将不连续成分的树转换成连续的变体，并使用指针网络和双射函数，将不连续的解析降低到一项连续问题，这项方法与全面的不连续算法相比具有相当准确率，但速度要快得多。

Apr, 2021