基于关系注意力的图结构任务通用 Transformer
提出了一种新型边缘 Transformer 模型,实现了自然语言理解中的系统化概括,并在关系推理、语义解析和依赖解析等几个设置中优于 Relation-aware、Universal 和传统 Transformer 基线模型。
Dec, 2021
使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力,在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。
Jun, 2024
提出了一种基于 Transformer 的 GRAP-Aware Transformer(GRAT)神经网络模型,利用自注意机制自适应地处理整个图的编码和解码,经过多种实验验证,其在 QM9 数据集的分子属性预测等任务上表现出了领先水平。
Jun, 2020
本文旨在提出一个简化的图结构 Transformers 算法架构 (SGFormer),该架构基于一个简单的 attention 模型,可在处理大规模图结构时实现高效信息传播,同时在节点属性预测基准测试中取得了出色的表现。
Jun, 2023
基于 k 维 Weisfeiler-Leman(k-WL)层次结构的图学习架构在理论上具有良好的表达能力。然而,这样的架构通常在实际任务中无法提供可靠的预测性能,限制了它们的实际影响。相比之下,基于全局注意力的图变换器等架构在实践中表现出强大的性能,但是与 k-WL 层次结构的表达能力进行比较仍具有挑战性,特别是因为这些架构依赖于位置或结构编码来实现其表达能力和预测性能。为了解决这个问题,我们展示了最近提出的边界变换器(Edge Transformer),一种基于节点对而不是节点操作的全局注意力模型,具有至少 3-WL 的表达能力。在实证上,我们证明了边界变换器相对于其他理论上对齐的架构在预测性能方面的优势,同时不依赖于位置或结构编码。
Jan, 2024
该文探讨了怎样使用 Transformer 网络在算法任务中表现良好,展示了多层 transformer 网络在任务分解中的可靠性解决方案,以及所有相关任务中的共享计算的利用。
Oct, 2022
我们认为 Transformer 模型本质上是图到图的模型,序列只是一种特殊情况。注意力权重在功能上等价于图中的边。我们的图到图 Transformer 架构明确地表达了这个能力,通过将图的边作为输入用于注意力权重计算,并使用类似于注意力的函数预测图中的边,从而将显式图集成到预训练的 Transformer 模型中学习出的潜在图中。添加迭代的图优化过程提供了输入、输出和潜在图的联合嵌入,使得非自回归图预测能够优化完整图,无需任何专门的流水线或解码策略。实证结果表明,该架构在对各种语言结构建模方面取得了最先进的准确性,与预训练学习的潜在语言表示非常有效地集成在一起。
Oct, 2023
本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用,通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析,发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系,最深层次关注最远程的联系,并抽取了展现特定关注头目标的范例句子。
Jun, 2019