神经成分句法分析的两种本地化模型
本文研究将非局部特征注入本地基于跨度的解析器的训练过程中,通过预测组成成分 n-gram 非局部模式并确保非局部模式与本地成分的一致性,结果显示,我们的方法在 PTB 和 CTB 上均优于自我注意解析器,在 PTB 上达到 BERT 的最新性能(95.92 F1),并在 CTB 上获得强大的性能(92.31 F1)。与基线相比,在多语言和零 - shot 跨领域设置中,我们的解析器也实现了更好或具有竞争力的性能。
Sep, 2021
本文介绍了一种基于 label 和 span 独立评分的最小神经模型,并证明了该模型不仅与经典的动态规划技术兼容,而且还支持一种基于递归分割的新颖贪心自顶向下推理算法。经实验证明,两种预测方案竞争力强,并且与得分模型的基本扩展相结合,能够实现 Penn Treebank 的单模型最优性能(91.79 F1),并在法语 Treebank 上获得强大的性能(82.23 F1)。
May, 2017
研究了现代和经典的组成分析方法的差异,以及神经网络在此领域的应用。高性能的神经模型代表了最新的工作,实验发现该模型隐式编码了过去语法和词汇表明确提供的信息,暗示这种支撑可以被强大的通用神经机制取代。
Apr, 2018
该研究提出了两个快速神经组合模型,用于句法分析,分别是二元模型和多分支模型,它们的理论复杂度是次二次的,实际复杂度较低,其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数,并以 1327.2 个句子 / 秒的速度进行解析。同时,该模型结合 XLNet,准确率接近英文句法分析的最新水平,并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank(日本)在训练和推理过程中的句法倾向和头向性。
Jun, 2021
本文针对移位 - 归约分析的相对弱点,利用双向 LSTM 模型提取向前追望特征,并将结果传递给强大的过渡性成分分析器,提高了 1.3% 在 WSJ 和 2.3% 在 CTB 中的准确性。
Dec, 2016
本文提出一种有效的方法来使 constituent parsing 更加准确,通过学习切换标记方案、降低标签集的稀疏性、并细化多任务学习以减少错误传播,加上辅助损失和策略梯度句子级微调等技术,成功优化了英文和中文 Penn Treebanks 数据集的连续标记 constituent parsers 的性能,并在 SPMRL 数据集上实现了更大的性能提升,包括在巴斯克语、希伯来语、波兰语和瑞典语上建立了新的 state of the art。
Feb, 2019
本研究旨在提出一种快速准确的神经 CRF 成分句法分析器,采用内部算法批处理、边界表示和双仿射关注等手段,提高了句法分析的效率和性能,并在三个数据集上达到了最新的最高性能。
Aug, 2020
本文探讨了当前神经语法学习方法对句法结构的表征方式,以及限制神经语法学习方法的表征能力的主要因素,并利用概率上下文无关文法为基础,说明上下文对神经语法学习方法进行语法分析决策时的关键作用。
Jun, 2021
采用领域无关的注意力增强序列到序列模型在一大合成语料库的标注基础上取得了最先进的效果,训练小规模人工标注的数据集时也达到了标准解析器的表现,且较大程度上提高了数据利用率和处理速度。
Dec, 2014