快速准确的神经 CRF 短语结构句法分析
本文在深度学习时代,首次提出将二阶 TreeCRF 扩展到 biaffine 句法分析器,通过 27 个数据集的实验和分析,显示出在部分有标记训练数据的情况下,表现结构学习(全局 TreeCRF 损失)和高阶建模依然有用,可以进一步提高句法分析性能。
May, 2020
该研究提出了两个快速神经组合模型,用于句法分析,分别是二元模型和多分支模型,它们的理论复杂度是次二次的,实际复杂度较低,其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数,并以 1327.2 个句子 / 秒的速度进行解析。同时,该模型结合 XLNet,准确率接近英文句法分析的最新水平,并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank(日本)在训练和推理过程中的句法倾向和头向性。
Jun, 2021
我们提出了一种新的成分分析模型,将分析问题转化为一系列指向任务,支持高效的自上而下编码和学习目标。实验表明,我们的方法在不使用预训练模型的情况下取得 92.78 F1 的结果,使用预训练 BERT,达到了 95.48 F1 和最先进的技术水平相当。此外,我们的方法也在多语种成分分析领域实现了最新的技术进展。
Jun, 2020
本文介绍了一种基于 label 和 span 独立评分的最小神经模型,并证明了该模型不仅与经典的动态规划技术兼容,而且还支持一种基于递归分割的新颖贪心自顶向下推理算法。经实验证明,两种预测方案竞争力强,并且与得分模型的基本扩展相结合,能够实现 Penn Treebank 的单模型最优性能(91.79 F1),并在法语 Treebank 上获得强大的性能(82.23 F1)。
May, 2017
提出了一种基于 RNNs 和动态规划的图结构堆叠和波束搜索的线性时间组成成分句法分析器,通过集成立方剪枝,可以将其运行速度进一步提高到 O(n b log b),相对于图表解析基线,此线性时间解析器在长句子上的速度明显更快,对于话语分析来说速度更快,是单模型端到端系统中在 Penn Treebank 上达到的最高 F1 准确度。
May, 2018
本文研究了两种概念简单的本地神经模型,在成分分析中取得了高度竞争的结果,分别实现了 PTB 和 CTB5.1 中的标记支架 F1 得分为 92.4%和 87.3%。
Aug, 2018
本文利用神经网络方法,结合了准确的 CRF 解析动态规划和丰富的非线性特征,提出了一种解析模型。该模型结构上基于 CRF,以锚定规则制作因素,而不是使用基于稀疏特征的线性势函数,使用前馈神经网络计算非线性势函数。在 Penn Treebank 第 23 节上,我们的系统优于先前最佳单个解析器结果,F1 分数达到 91.1。
Jul, 2015
本研究提出一种基于 GPU 加速的 CKY 解码方法,利用句法规则进行约束,能够有效地进行神经成分分析。在实验中,本方法相比之前的方法有了显著的提高,特别是在交叉领域效果显著,达到了较高的分数。
Dec, 2022
通过使用仅包含句子跨度的最小 LSTM 特征表示的新的 shift-reduce 系统以及第一个可以证明最优的动态 Oracle,该算法的时间复杂度是摊销 O(1),相比于标准依赖解析的 O(n ^ 3)Oracle,我们在使用这个 Oracle 进行训练后,在不使用重新排名或外部数据的情况下取得了最好的 F1 分数,而句法解析准确度得到了显著提高。
Dec, 2016
本文提出一种有效的方法来使 constituent parsing 更加准确,通过学习切换标记方案、降低标签集的稀疏性、并细化多任务学习以减少错误传播,加上辅助损失和策略梯度句子级微调等技术,成功优化了英文和中文 Penn Treebanks 数据集的连续标记 constituent parsers 的性能,并在 SPMRL 数据集上实现了更大的性能提升,包括在巴斯克语、希伯来语、波兰语和瑞典语上建立了新的 state of the art。
Feb, 2019