Transformer 模型是否在预测被遮盖的单词时进行解析？

Mar, 2023

Transformer 模型是否在预测被遮盖的单词时进行解析？

Do Transformers Parse while Predicting the Masked Word?

Haoyu Zhao, Abhishek Panigrahi, Rong Ge, Sanjeev Arora

TL;DR本研究调查了预训练语言模型是否实际执行语法分析任务或仅弱相关运算，通过生成建模与 PCFG 结构的实验，证明了模型可以近似执行该任务并恢复算法估计的概率。

Abstract

pre-trained language models have been shown to encode linguistic structures, e.g. dependency and constituency parse trees, in their embedd

pre-trained language models linguistic structures dependency parse trees constituency parse trees generative modeling

发现论文，激发创造

解析作为预训练

本文讨论了使用预训练架构（而非解码）进行单语种全刻度句法分析（成分和依赖）的问题，并使用序列标注作为模型，探讨了不同词向量的句法敏感性。实验分析显示，使用预训练编码器的结果优于现有序列标记解析器，F1 评分为 93.5％（PTB）和 78.8％（EN-EWT UD）的限制条件下。

Feb, 2020

上下文扭曲揭示组成结构：遮蔽语言模型为隐含的解析器

本文提出了一种新的基于上下文表示扰动评分的图表法提取已屏蔽语言模型中的句法树的方法，此方法在英语和八种语言的数据集上均表现出优异性能，能替代无监督语法分析方法。

Jun, 2023

Transformer 语言模型的结构指导

本论文研究了在不需要大量预训练的情况下，以结构为导向的指导是否能够使 Transformer 语言模型学习更接近人类的系统语言泛化。通过在 BLLIP 数据集上对两种新模型进行实验，研究者发现引入结构性解析的辅助训练能够提高 Transformer 语言模型在句法推理上的泛化能力。

Jul, 2021

语言模型的物理学：第 1 部分，无上下文语法

本研究设计实验以探究生成式语言模型如何学习上下文无关文法，并发现了 Transformer 如何利用物理机制隐式地编码文法结构、形成类动态规划的 attention，并在处理语法错误时表现出的鲁棒性方面的相关拓展。

May, 2023

BERT 之后：其他木偶对语言的理解

利用 oLMpics 基准和心理语言学探测数据集，我们对包括 T5、BART 和 ALBERT 在内的 29 个模型进行了多样化的分析。结果表明，这些模型都无法以零样本的方式解决组成性问题，并且全局模型决策也不能预测模型的语言能力。

May, 2022

基于自注意力头的无监督成分句法分析

本研究使用 Transformer-based pre-trained language models 并提出一种全新的无监督分析方法，通过引入一个高排名头部的集合，用于从语法角度分析 PLMs 的学习知识，从而提取出 PLMs 的句法知识，并用这些知识来训练神经 PCFG，最终与人类注释的语法树库得到比较。

Oct, 2020

预训练语言模型对源代码的结构分析

此篇论文分析了预训练语言模型，尤其是 CodeBERT 和 GraphCodeBERT 对源代码的结构性质，通过对注意力分析，词嵌入的探索和语法树归纳等方面进行全面分析，揭示出了一些深入的发现，为今后的相关研究提供了启示。

Feb, 2022

快速准确的神经 CRF 短语结构句法分析

本研究旨在提出一种快速准确的神经 CRF 成分句法分析器，采用内部算法批处理、边界表示和双仿射关注等手段，提高了句法分析的效率和性能，并在三个数据集上达到了最新的最高性能。

Aug, 2020

因果转换器在递归嵌套结构上表现低于随机，不如人类

研究发现，当处理嵌套构造中存在长距离嵌入依赖时，尽管 Transformer 语言模型在处理短距离嵌入依赖时表现接近完美，但表现却远低于机会水平，这揭示了 Transformers 在结构化的递归处理中的缺陷。

Oct, 2021

用 Transformer 近似实现 CKY

本文研究了 transformer 模型近似 CKY 算法的能力，并通过直接预测分析结果，避免了 CKY 算法对句子长度的三次依赖。研究发现，在标准的短语句法分析基准测试中，这种方法在速度上比 CKY 还要快，但仍然能够实现与 CKY 相媲美的性能，并通过引入归纳偏差提出了一种新的方法来预测分析结果。

May, 2023