组成部分句法分析作为序列标注
本文提出一种有效的方法来使 constituent parsing 更加准确,通过学习切换标记方案、降低标签集的稀疏性、并细化多任务学习以减少错误传播,加上辅助损失和策略梯度句子级微调等技术,成功优化了英文和中文 Penn Treebanks 数据集的连续标记 constituent parsers 的性能,并在 SPMRL 数据集上实现了更大的性能提升,包括在巴斯克语、希伯来语、波兰语和瑞典语上建立了新的 state of the art。
Feb, 2019
提出一种可以将标签分配给句子中每个单词的成分解析算法,该算法使用了当前神经网络结构,可在与现有最先进解析器类似的精确度下实现实质性的速度提升,95.4 F1 测试集结果表明其算法性能优秀。
Apr, 2019
本文研究使用基于 BiLSTM 的序列标注方法重构了依存句法分析,并通过在 PTB 和 UD 树库样本上的实验,证明该方法在速度和准确性之间提供了很好的平衡,结果与更复杂的方法相当竞争力。
Feb, 2019
我们提出了一种新的成分分析模型,将分析问题转化为一系列指向任务,支持高效的自上而下编码和学习目标。实验表明,我们的方法在不使用预训练模型的情况下取得 92.78 F1 的结果,使用预训练 BERT,达到了 95.48 F1 和最先进的技术水平相当。此外,我们的方法也在多语种成分分析领域实现了最新的技术进展。
Jun, 2020
我们定义了从自左向右读取句子的基于转移的解析算法到序列标注编码的句法树的映射。这不仅建立了基于转移的解析和序列标注解析之间的理论关系,而且提供了一种从不同形式的现有基于转移的解析器中获得快速简单的序列标注解析的新编码的方法。将其应用于依赖分析,我们实现了四种算法的序列标注版本,结果显示它们是可学习的,并且具有与现有编码相当的性能。
Nov, 2020
本文将解析问题作为多任务学习来探究,通过添加解析范式作为辅助损失,在其他范式表现中保持一致提高性能,探讨了一种 MTL 序列标记模型,以几乎不损失性能和速度的代价解析两个表示,总体结果表明,平均来说,具有属于成分解析的辅助损失的 MTL 模型比单任务模型高 1.14 F1 点,而用于依赖解析的辅助损失提升 0.62 UAS 点。
Jul, 2019
该研究提出了两个快速神经组合模型,用于句法分析,分别是二元模型和多分支模型,它们的理论复杂度是次二次的,实际复杂度较低,其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数,并以 1327.2 个句子 / 秒的速度进行解析。同时,该模型结合 XLNet,准确率接近英文句法分析的最新水平,并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank(日本)在训练和推理过程中的句法倾向和头向性。
Jun, 2021
本文讨论了使用预训练架构(而非解码)进行单语种全刻度句法分析(成分和依赖)的问题,并使用序列标注作为模型,探讨了不同词向量的句法敏感性。实验分析显示,使用预训练编码器的结果优于现有序列标记解析器,F1 评分为 93.5%(PTB)和 78.8%(EN-EWT UD)的限制条件下。
Feb, 2020
本文介绍了一种基于 label 和 span 独立评分的最小神经模型,并证明了该模型不仅与经典的动态规划技术兼容,而且还支持一种基于递归分割的新颖贪心自顶向下推理算法。经实验证明,两种预测方案竞争力强,并且与得分模型的基本扩展相结合,能够实现 Penn Treebank 的单模型最优性能(91.79 F1),并在法语 Treebank 上获得强大的性能(82.23 F1)。
May, 2017