树形 Transformer:将树形结构集成到自注意力中
通过在 Tree-LSTM 单元中引入可分解注意力的变体,我们设计了一种广义的注意力框架,适用于依赖树和组成树结构,并在语义相关性任务中评估了模型,与不使用注意力的 Tree-LSTM 方法以及其他神经和非神经方法相比表现显著。
Jan, 2019
本文提出了 “Hierarchy Accumulation” 的方法,将分析树结构编码为自注意力,以常数时间复杂度实现了序列模型,相较于 SOTA 方法,在四个 IWSLT 翻译任务和 WMT'14 英德翻译任务上表现更好,并在三项文本分类任务上胜过 Transformer 和 Tree-LSTM,同时表明使用分层先验可以补偿数据短缺,该模型更倾向于使用短语级别的自注意力。
Feb, 2020
提出了一种依赖转换器的模型,它采用自注意机制与关系注意机制的协同作用来编码句子依存树中节点之间的依赖关系和空间位置关系,并成功注入了语法信息,提高了模型对句子的表示能力和计算效率。
Mar, 2022
本研究通过对 18 种语言进行多语言 BERT 的解码实验,以测试依存句法是否反映在注意力模式中的普适性,并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对 mBERT 进行监督解析目标的微调,结果表明注意力模式可以代表语言结构。
Jan, 2021
我们介绍了一种利用循环神经网络语法编码器和新颖的注意力递归神经网络解码器的模型,利用策略梯度强化学习来在源语言和目标语言上诱导无监督树结构,从而训练出在字符级数据集中相当不错的分割和浅层解析表现,接近注意力基准。
Sep, 2017
本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用,通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析,发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系,最深层次关注最远程的联系,并抽取了展现特定关注头目标的范例句子。
Jun, 2019
本文提出了一种名为 Treeformer 的新型 transformer 模型,通过采用基于决策树的层次化导航方法,将 attention 计算的检索成本从线性降低为几乎对数级,同时使用 TF-Attention 和 TC-Attention 两种 attention 层实现了性能优于基准 Transformer 30 倍 FLOPs 的结果。
Aug, 2022
本文提出 Tree-Transformer 神经网络架构,可用于树状结构数据的矫正任务,并在源代码和自然语言两个领域中分别取得了 25% 和 10% 的改进。
Aug, 2019
本文提出了一种层次注意机制的神经翻译模型,采用双向树形编码器来增强源端层次表示,用加权变异的注意机制平衡词汇和短语向量之间的信息,通过树形稀有词编码将该模型扩展至亚字级别以缓解词汇缺失的问题,实证结果表明,该模型在英汉翻译任务中显著优于序列到序列的注意力机制和基于树的神经翻译模型。
Jul, 2017