锥头族：层次感知注意力

Jun, 2023

Coneheads: Hierarchy Aware Attention

Albert Tseng, Tao Yu, Toni J.B. Liu, Christopher De Sa

TL;DR本文介绍了锥形注意力机制，这是一种用于捕获层次关系的方法，它使用双曲锥体度量数据点之间的相似度，并在各种模型和任务中实现了更好的性能。

Abstract

attention networks such as transformers have achieved state-of-the-art performance in many domains. These networks rely heavily on the dot product attention operator, which computes the similarity between two poi

attention networks transformers cone attention hierarchical relationships task-level performance

发现论文，激发创造

层叠注意力：提高 Transformer 模型对层次模式建模的能力

我们提出了堆栈注意力：一种集成堆栈的注意力操作符，其灵感来源于堆栈与上下文无关语言（CFLs）的理论联系，以解决标准注意力无法识别某些句法结构的局限性。我们提出了两种变种：一种与确定性下推自动机（PDAs）相关，一种基于非确定性 PDAs，使得 transformers 能够识别任意 CFLs。我们证明，具有堆栈注意力的 transformers 在学习 CFLs 方面非常有效，能够在理论上具有最大的解析困难的 CFL 上取得强大的结果。我们还证明，堆栈注意力在受约束参数预算下在自然语言建模中更加有效，并包括机器翻译方面的结果。

Oct, 2023

透过凸优化解释注意力：关于视觉 Transformer 的分析和解读

本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题，并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明，与现有的 MLP 或线性 heuads 相比，自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。

May, 2022

用关系特定的双曲锥模拟异质层次

研究提出了一种名为 ConE 的新型知识图谱嵌入模型，使用超球面锥体将实体嵌入到一个多维空间中，并对锥之间的变换建模，以同时捕捉多个异构的分层关系和非层次关系。实验结果表明，该模型在层次推理任务和知识图谱补全任务方面都比其他模型表现更好，这将有利于知识图谱应用和推理。

Oct, 2021

学习分层嵌入的双曲包含锥

在机器学习中，通过保留相关网络属性的低维嵌入学习图表示是一类重要的问题。本文提出了一种嵌入有向无环图的新方法，使用证明能够更好地模拟树状结构的双曲空间，并使用一组嵌套的测地凸锥来定义分层关系，并证明这些蕴含锥体在欧几里得和双曲空间中均具有一种优化的形式，而且它们可以规范地定义嵌入学习过程。实验显示，我们的方法在表示能力和泛化方面都比最近的强有力的基线有显着的改进。

Apr, 2018

高效注意力：线性复杂度的注意力

本文提出了一种新的有效注意机制，其在计算代价和内存使用方面远优于点积注意力，这种资源效率使得它能够更广泛和灵活地集成到网络中，提高了观察精度，可以用于物体检测、实例分割和立体深度估计等领域。

Dec, 2018

超图卷积和超图注意力

该研究引入了两个可端到端训练的操作符，在超图卷积和超图注意机制方面，以在高阶关系的图结构数据上有效地学习深度嵌入，并在半监督节点分类方面展示了其有效性。

Jan, 2019

椭圆形注意力

应用 Mahalanobis 距离计算注意力权重，将模型的特征空间在高上下文相关性方向进行拉伸，从而达到减少特征塌缩和提升模型鲁棒性的效果，验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。

Jun, 2024

鬣狗等级制度：朝着更大的卷积语言模型

本文介绍了 Hyena，一种亚二次的 attention 替代方法，它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建，能够有效地解决 Transformers 中 quadratic cost 的问题，并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度，同时减少了 20% 的训练计算资源。

Feb, 2023

对称点积注意力用于 BERT 语言模型的高效训练

提出了一种与 Transformer 架构的自注意力机制兼容的替代性兼容函数，并在类似 BERT 模型的预训练中实现了对称的注意力机制，在 GLUE 基准测试中得分 79.36，减少了可训练参数数量的 6％，并将收敛前所需的训练步骤减少了一半。

Jun, 2024

H-Transformer-1D: 序列快速一维分层注意力

本研究提出了一种高效的基于矩阵结构的层次注意力方法，并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的，相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点，在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。

Jul, 2021