基于集成的无监督非连续性短语结构分析方法
我们研究了无监督的成分句法分析任务,该任务将句子中的单词和短语组织成层次结构,而不使用语言学注释数据。我们观察到现有的无监督解析器捕捉了句法结构的不同方面,可以利用这些方面来提高无监督解析的性能。为此,我们提出了 “树平均” 方法,并进一步提出了一种新颖的无监督解析集成方法。为了提高推理效率,我们将集成的知识进一步融入到一个学生模型中;这种先集成后蒸馏的过程是缓解常见多老师蒸馏方法中存在的过度平滑问题的一种有效方法。实验证明,我们的方法超过了所有先前的方法,始终表现出其在各种运行,不同的集成组件和领域转移条件下的有效性和鲁棒性。
Oct, 2023
提出了一种用于跨度句法分析的基于图表的新算法,可以处理块度为 2 的不连续依存树,包括病态嵌套结构,在时间复杂度为 O (n^(6~3)) 之间构建其变异版本,并在德语和英语树库上评估其性能,包括预先训练的词嵌入和基于 BERT 的神经网络。
Mar, 2020
本文提出了一种基于无监督成分测试的无监督解析方法。通过使用一组转换和一个无监督的神经接受模型来制定无监督解析器,以生成给定句子的树,通过聚合其成分测试判断来评分。并且通过反复改进预测出的树和提高语法性模型之间的相互作用,进一步提高了准确性。
Oct, 2020
该研究使用无标签口语句子和未成对文本数据进行无监督组成语法分析,比较了通过级联自动语音识别和无监督解析器方法以及直接对连续的词级语音表示进行无监督解析器训练的方法,发现后者解析效果更好。此外,准确的分割也可以实现口语句子的准确解析。最后,该研究显示了无需显式归纳偏差的情况下,直接方法也可以正确学习头波方向性。
Mar, 2023
我们提出了一种新的成分分析模型,将分析问题转化为一系列指向任务,支持高效的自上而下编码和学习目标。实验表明,我们的方法在不使用预训练模型的情况下取得 92.78 F1 的结果,使用预训练 BERT,达到了 95.48 F1 和最先进的技术水平相当。此外,我们的方法也在多语种成分分析领域实现了最新的技术进展。
Jun, 2020
本文提出了一种基于真相发现想法的分句结构树聚合方法,分别从结构聚合和成分标签聚合两步着手,结果表明该方法相较于现有聚合基线方法有较好的聚合表现,并且得到的权重能充分评估常见的句法结构分析方法。
Jan, 2022
本文介绍了一种基于 label 和 span 独立评分的最小神经模型,并证明了该模型不仅与经典的动态规划技术兼容,而且还支持一种基于递归分割的新颖贪心自顶向下推理算法。经实验证明,两种预测方案竞争力强,并且与得分模型的基本扩展相结合,能够实现 Penn Treebank 的单模型最优性能(91.79 F1),并在法语 Treebank 上获得强大的性能(82.23 F1)。
May, 2017
该研究提出了两个快速神经组合模型,用于句法分析,分别是二元模型和多分支模型,它们的理论复杂度是次二次的,实际复杂度较低,其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数,并以 1327.2 个句子 / 秒的速度进行解析。同时,该模型结合 XLNet,准确率接近英文句法分析的最新水平,并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank(日本)在训练和推理过程中的句法倾向和头向性。
Jun, 2021
本研究比较基于词汇化和非词汇化的句法分析模型的性能表现,提出了一种基于结构 - 标签转换系统和双向 LSTM 评分系统的非词汇化转换型分析器,结果表明非词汇化模型在处理不连续组分句法结构时具有更好的性能表现,尤其是在英语和德语的领域中。
Feb, 2019
通过将不连续成分的树转换成连续的变体,并使用指针网络和双射函数,将不连续的解析降低到一项连续问题,这项方法与全面的不连续算法相比具有相当准确率,但速度要快得多。
Apr, 2021