树形 Transformer：将树形结构集成到自注意力中

EMNLPSep, 2019

树形 Transformer：将树形结构集成到自注意力中

Tree Transformer: Integrating Tree Structures into Self-Attention

Yau-Shian Wang, Hung-Yi Lee, Yun-Nung Chen

TL;DR使用自注意力机制来诱导目标树结构，从而产生更好的语言模型，更可解释的注意力分数，并达到实验效果的 Transformer 变种 (Tree Transformer) 的提出。

Abstract

Pre-training transformer from large-scale raw texts and fine-tuning on the desired task have achieved state-of-the-art results on diverse NLP tasks. However, it is unclear what the learned attention captures. The attention computed by →

transformer attention heads tree transformer constituent attention language modeling

发现论文，激发创造

利用树注意力改进 Tree-LSTM

通过在 Tree-LSTM 单元中引入可分解注意力的变体，我们设计了一种广义的注意力框架，适用于依赖树和组成树结构，并在语义相关性任务中评估了模型，与不使用注意力的 Tree-LSTM 方法以及其他神经和非神经方法相比表现显著。

Jan, 2019

具有层次累积的树状关注

本文提出了 “Hierarchy Accumulation” 的方法，将分析树结构编码为自注意力，以常数时间复杂度实现了序列模型，相较于 SOTA 方法，在四个 IWSLT 翻译任务和 WMT'14 英德翻译任务上表现更好，并在三项文本分类任务上胜过 Transformer 和 Tree-LSTM，同时表明使用分层先验可以补偿数据短缺，该模型更倾向于使用短语级别的自注意力。

Feb, 2020

将依存树整合到自注意力机制中的句子表示

提出了一种依赖转换器的模型，它采用自注意机制与关系注意机制的协同作用来编码句子依存树中节点之间的依赖关系和空间位置关系，并成功注入了语法信息，提高了模型对句子的表示能力和计算效率。

Mar, 2022

无监督分析的层次 Transformer

本文扩展了转换器模型，使其能够学习自然语言中的层次结构，得到了较好的无监督语法分析结果。

Mar, 2020

注意力可以反映句法结构 (如果你允许)

本研究通过对 18 种语言进行多语言 BERT 的解码实验，以测试依存句法是否反映在注意力模式中的普适性，并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对 mBERT 进行监督解析目标的微调，结果表明注意力模式可以代表语言结构。

Jan, 2021

具有潜在树状注意力的神经机器翻译

我们介绍了一种利用循环神经网络语法编码器和新颖的注意力递归神经网络解码器的模型，利用策略梯度强化学习来在源语言和目标语言上诱导无监督树结构，从而训练出在字符级数据集中相当不错的分割和浅层解析表现，接近注意力基准。

Sep, 2017

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

Treeformer: 高效注意力计算的密集梯度树

本文提出了一种名为 Treeformer 的新型 transformer 模型，通过采用基于决策树的层次化导航方法，将 attention 计算的检索成本从线性降低为几乎对数级，同时使用 TF-Attention 和 TC-Attention 两种 attention 层实现了性能优于基准 Transformer 30 倍 FLOPs 的结果。

Aug, 2022

Tree-Transformer: 一种基于 Transformer 的树形数据纠错方法

本文提出 Tree-Transformer 神经网络架构，可用于树状结构数据的矫正任务，并在源代码和自然语言两个领域中分别取得了 25% 和 10% 的改进。

Aug, 2019

基于注意力机制的神经机器翻译双向分层表示

本文提出了一种层次注意机制的神经翻译模型，采用双向树形编码器来增强源端层次表示，用加权变异的注意机制平衡词汇和短语向量之间的信息，通过树形稀有词编码将该模型扩展至亚字级别以缓解词汇缺失的问题，实证结果表明，该模型在英汉翻译任务中显著优于序列到序列的注意力机制和基于树的神经翻译模型。

Jul, 2017