基于注意力机制的图解码器的符号评级限制

Feb, 2024

基于注意力机制的图解码器的符号评级限制

Sign Rank Limitations for Attention-Based Graph Decoders

Su Hyeong Lee, Qingqi Zhang, Risi Kondor

TL;DR基于内积的解码器是用于从潜在嵌入中提取有意义数据的最有影响力的框架之一。然而，这种解码器在表示能力方面存在一些限制，尤其在图重建问题中。本文首次从理论上阐明了这一普遍现象在图数据中的影响，并提出了简单的修改方法，以避免偏离内积框架。

Abstract

inner product-based decoders are among the most influential frameworks used to extract meaningful data from latent embeddings. However, such decoders have shown limitations in →

inner product-based decoders latent embeddings representation capacity graph reconstruction problems theoretical elucidation

发现论文，激发创造

注意力不是唯一的解决方案：仅仅使用注意力机制会随着深度呈双倍指数级别的降低

本研究提出了一种新的方法来理解自我注意网络：我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加，通过这种分解，我们证明了自我注意具有强烈的归纳偏差，具体表现为 “令牌均匀性”；实验证明，不同变体的标准转换器体系结构存在收敛现象。

Mar, 2021

无位置编码的图形变换器

Eigenformer 通过一种新颖的对 Laplacian 谱意识的注意机制，在一些标准的图神经网络基准数据集上实现了与最先进的 MP-GNN 体系结构和 Graph Transformers 相当的性能，甚至在某些数据集上超越了最先进的方法。此外，我们发现我们的架构在训练速度方面要快得多，可能是由于内在的图归纳偏置。

Jan, 2024

图转换器泛化能力的提升方法：关注力机制和位置编码的理论探讨

该研究通过理论探索首次分析了浅层图变换器在半监督节点分类中的应用。它使用了自注意力和位置编码，并描述了实现理想的泛化误差所需的样本复杂度和迭代次数的定量特征。此外，文中还展示了自注意力和位置编码如何通过稀疏化注意力图和在训练过程中促进核心邻域，从而增强了图变换器的特征表示能力。实验证明了我们的理论结果。

Jun, 2024

文本检索中的稀疏、密集和注意力表示

该研究探讨了双编码器的检索能力，并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制，具体表现为编码维数，金标和排名较低文件之间的边际，以及文档长度。在此基础上，该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型，并探索了稀疏 - 密集混合模型以提高检索精度，这些模型在大规模检索中胜过强有力的替代方案。

May, 2020

神经信息检索与图嵌入相遇：产品搜索排序模型

本文介绍了一种利用图嵌入技术使神经信息检索模型可以利用图结构数据进行自动特征提取的方法，并将其应用于电子商务数据集中，结果显示该方法在多个强基线模型和排序框架中都有显著提高。

Jan, 2019

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023

具有正则化注意力分数的更强图转换器

通过引入一种新颖的 “边缘正则化技术”，我们解决了图神经网络的内存消耗问题，并改善了 Transformer 架构对图数据的处理能力。在无位置编码的情况下，通过边缘正则化技术能够稳定提升 Graph Transformer 模型的性能。

Dec, 2023

大型图形表示中的 Transformer 简化与授权

本文旨在提出一个简化的图结构 Transformers 算法架构 (SGFormer)，该架构基于一个简单的 attention 模型，可在处理大规模图结构时实现高效信息传播，同时在节点属性预测基准测试中取得了出色的表现。

Jun, 2023

注意力机制胜于矩阵分解吗？

通过将全局上下文建模问题视为低秩恢复问题，将 MD 模型作为解决方案以低成本、高效的方式优于现有的注意机制，特别是自注意机制，在解决先前无法解决的全局性任务上具有广泛应用，特别是在计算机视觉上。

Sep, 2021