基于注意力机制的图解码器的符号评级限制
本研究提出了一种新的方法来理解自我注意网络:我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加,通过这种分解,我们证明了自我注意具有强烈的归纳偏差,具体表现为 “令牌均匀性”;实验证明,不同变体的标准转换器体系结构存在收敛现象。
Mar, 2021
Eigenformer 通过一种新颖的对 Laplacian 谱意识的注意机制,在一些标准的图神经网络基准数据集上实现了与最先进的 MP-GNN 体系结构和 Graph Transformers 相当的性能,甚至在某些数据集上超越了最先进的方法。此外,我们发现我们的架构在训练速度方面要快得多,可能是由于内在的图归纳偏置。
Jan, 2024
该研究通过理论探索首次分析了浅层图变换器在半监督节点分类中的应用。它使用了自注意力和位置编码,并描述了实现理想的泛化误差所需的样本复杂度和迭代次数的定量特征。此外,文中还展示了自注意力和位置编码如何通过稀疏化注意力图和在训练过程中促进核心邻域,从而增强了图变换器的特征表示能力。实验证明了我们的理论结果。
Jun, 2024
该研究探讨了双编码器的检索能力,并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制,具体表现为编码维数,金标和排名较低文件之间的边际,以及文档长度。在此基础上,该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型,并探索了稀疏 - 密集混合模型以提高检索精度,这些模型在大规模检索中胜过强有力的替代方案。
May, 2020
本文介绍了一种利用图嵌入技术使神经信息检索模型可以利用图结构数据进行自动特征提取的方法,并将其应用于电子商务数据集中,结果显示该方法在多个强基线模型和排序框架中都有显著提高。
Jan, 2019
本研究通过分析注意力层及其所在的变形器模型的表示能力,探讨这些模型相对于其他架构的优势和劣势,并重点关注了它们的内在复杂度参数,例如宽度、深度和嵌入维度。在正面方面,我们提出了一个稀疏平均任务,并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长,而变形器的复杂性仅随着输入规模的对数增长;此外,我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面,我们提出了一个三元组检测任务,其中注意力层的复杂性随输入规模线性增长;考虑到这种情况在实践中似乎很少出现,我们还提出了一些自然变种,可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值,以及稀疏平均作为原型注意任务的作用,甚至在三元组检测的分析中也有用处。
Jun, 2023
通过引入一种新颖的 “边缘正则化技术”,我们解决了图神经网络的内存消耗问题,并改善了 Transformer 架构对图数据的处理能力。在无位置编码的情况下,通过边缘正则化技术能够稳定提升 Graph Transformer 模型的性能。
Dec, 2023
本文旨在提出一个简化的图结构 Transformers 算法架构 (SGFormer),该架构基于一个简单的 attention 模型,可在处理大规模图结构时实现高效信息传播,同时在节点属性预测基准测试中取得了出色的表现。
Jun, 2023
通过将全局上下文建模问题视为低秩恢复问题,将 MD 模型作为解决方案以低成本、高效的方式优于现有的注意机制,特别是自注意机制,在解决先前无法解决的全局性任务上具有广泛应用,特别是在计算机视觉上。
Sep, 2021