透过标注实现解析

Nov, 2022

On Parsing as Tagging

Afra Amini, Ryan Cotterell

TL;DR该研究探讨了如何将基于上下文的分析方法转化为标注流程，并通过实验证明：推导树的线性转化和其与输入序列的对齐是实现精确标注标记的最重要因素。

Abstract

There have been many proposals to reduce constituency parsing to tagging in the literature. To better understand what these approaches have in common, we cast several existing proposals into a unifying pipeline c

constituency parsing tagging linearization learning decoding

发现论文，激发创造

四标记：线性时间推断下的词同步解析

提出一种可以将标签分配给句子中每个单词的成分解析算法，该算法使用了当前神经网络结构，可在与现有最先进解析器类似的精确度下实现实质性的速度提升，95.4 F1 测试集结果表明其算法性能优秀。

Apr, 2019

基于 LLMs 的短语结构解析

运用大型语言模型探索生成线性化树解决成分句法分析任务，并通过实验证明模型的性能、泛化能力和挑战。

Oct, 2023

组成部分句法分析作为序列标注

该论文介绍了一种将成分解析简化为序列标注的方法，并使用该方法在 PTB 和 CTB 树库上取得了 90.7% 的 F1 得分，成为最快的成分解析器之一。

Oct, 2018

解析作为降阶

本文提出了一种新的中间表示法，基于这种表示法，我们将短语表示分析转化为依存分析，并通过在依存标签中编码顺序信息，表明任何可训练的依存分析器都可以用来生成 constituents。尽管我们的方法很简单，但实验证明，结果与强基准线（例如伯克利解析器和 SPMRL 2014 共享任务中最好的单一系统）不相上下，特别是在德语断点解析方面，我们超过了当前的技术水平。

Feb, 2015

解析作为预训练

本文讨论了使用预训练架构（而非解码）进行单语种全刻度句法分析（成分和依赖）的问题，并使用序列标注作为模型，探讨了不同词向量的句法敏感性。实验分析显示，使用预训练编码器的结果优于现有序列标记解析器，F1 评分为 93.5％（PTB）和 78.8％（EN-EWT UD）的限制条件下。

Feb, 2020

神经组合成分解析

该研究提出了两个快速神经组合模型，用于句法分析，分别是二元模型和多分支模型，它们的理论复杂度是次二次的，实际复杂度较低，其中二元模型在 Penn Treebank 上取得了 92.54 的 F1 分数，并以 1327.2 个句子 / 秒的速度进行解析。同时，该模型结合 XLNet，准确率接近英文句法分析的最新水平，并能够观察到 Penn Treebank、Chinese Treebank 和 Keyaki Treebank（日本）在训练和推理过程中的句法倾向和头向性。

Jun, 2021

富化顺序线性化以加快序列到序列成分句法分析

本文提出基于 in-order linearization 的丰富 shift-reduce 线性化方法，应用于序列到序列组成部分分析，实现了英语 PTB 数据集的最佳准确性和与转移式的最先进 parsers 一样的速度。

May, 2020

更好、更快、更强的序列标注成分解析器

本文提出一种有效的方法来使 constituent parsing 更加准确，通过学习切换标记方案、降低标签集的稀疏性、并细化多任务学习以减少错误传播，加上辅助损失和策略梯度句子级微调等技术，成功优化了英文和中文 Penn Treebanks 数据集的连续标记 constituent parsers 的性能，并在 SPMRL 数据集上实现了更大的性能提升，包括在巴斯克语、希伯来语、波兰语和瑞典语上建立了新的 state of the art。

Feb, 2019

堆栈传播：用于语法的改进表示学习

使用 POS 标签作为学习表示的正则化器，提出了一种称为 “stack-propagation” 的学习模型，该模型可以应用于依赖分析和标注，其测试结果比最先进的基于图形的方法更加准确。

Mar, 2016

通过成分测试的无监督解析

本文提出了一种基于无监督成分测试的无监督解析方法。通过使用一组转换和一个无监督的神经接受模型来制定无监督解析器，以生成给定句子的树，通过聚合其成分测试判断来评分。并且通过反复改进预测出的树和提高语法性模型之间的相互作用，进一步提高了准确性。

Oct, 2020