使用 Treeformers 形成树形结构
本文提出 Tree-Transformer 神经网络架构,可用于树状结构数据的矫正任务,并在源代码和自然语言两个领域中分别取得了 25% 和 10% 的改进。
Aug, 2019
本文提出了一种名为 Treeformer 的新型 transformer 模型,通过采用基于决策树的层次化导航方法,将 attention 计算的检索成本从线性降低为几乎对数级,同时使用 TF-Attention 和 TC-Attention 两种 attention 层实现了性能优于基准 Transformer 30 倍 FLOPs 的结果。
Aug, 2022
研究表明,当进行语言数据训练时,transformers 是学习一种简单的基于树状结构的计算过程,可以解释像人类语言这样的复合意义系统,这种过程没有必要使用其完整架构的全部容量。通过无监督和无参数的方法,可以在任何 transformer 和树状结构之间建立功能投影,而三项不同的任务实验表明,在一些情况下,可无监督地恢复相同的树状结构,这些树状结构有助于模型的行为改进。
Nov, 2022
本文提出了一种基于递归 Transformer 模型的分层过程的方法,并将双向语言模型预训练目标扩展到此体系结构,试图预测每个单词给定其左右抽象节点。实验结果表明,我们的方法在语言建模和无监督解析方面非常有效。
Jul, 2021
本论文提出了一种新的基于 Hash 技术的预训练模型 HashFormers,该模型可以在不使用 embedding matrices 的情况下支持无限词汇量,具有内存效率更高的优点,并在多个文本分类任务中达到了可比较的预测性能。
Oct, 2022
本文提出了 “Hierarchy Accumulation” 的方法,将分析树结构编码为自注意力,以常数时间复杂度实现了序列模型,相较于 SOTA 方法,在四个 IWSLT 翻译任务和 WMT'14 英德翻译任务上表现更好,并在三项文本分类任务上胜过 Transformer 和 Tree-LSTM,同时表明使用分层先验可以补偿数据短缺,该模型更倾向于使用短语级别的自注意力。
Feb, 2020
SubFormer 是一种图变换器,通过消息传递机制对子图进行操作,减少了标记数量,增强了学习长距离交互的能力。在预测分子属性和化学结构方面,SubFormer 与最先进的图变换器相比,在计算成本的一小部分情况下保持着竞争力,并且在消费级显卡上进行训练的时间仅为几分钟。我们通过对化学结构的注意权重进行解读,展示了 SubFormer 表现出有限的过度平滑和避免了传统图神经网络常见的过度压缩问题。
Oct, 2023
使用自注意力机制来诱导目标树结构,从而产生更好的语言模型,更可解释的注意力分数,并达到实验效果的 Transformer 变种 (Tree Transformer) 的提出。
Sep, 2019