锥头族:层次感知注意力
我们提出了堆栈注意力:一种集成堆栈的注意力操作符,其灵感来源于堆栈与上下文无关语言(CFLs)的理论联系,以解决标准注意力无法识别某些句法结构的局限性。我们提出了两种变种:一种与确定性下推自动机(PDAs)相关,一种基于非确定性 PDAs,使得 transformers 能够识别任意 CFLs。我们证明,具有堆栈注意力的 transformers 在学习 CFLs 方面非常有效,能够在理论上具有最大的解析困难的 CFL 上取得强大的结果。我们还证明,堆栈注意力在受约束参数预算下在自然语言建模中更加有效,并包括机器翻译方面的结果。
Oct, 2023
本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题,并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明,与现有的 MLP 或线性 heuads 相比,自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。
May, 2022
研究提出了一种名为 ConE 的新型知识图谱嵌入模型,使用超球面锥体将实体嵌入到一个多维空间中,并对锥之间的变换建模,以同时捕捉多个异构的分层关系和非层次关系。实验结果表明,该模型在层次推理任务和知识图谱补全任务方面都比其他模型表现更好,这将有利于知识图谱应用和推理。
Oct, 2021
在机器学习中,通过保留相关网络属性的低维嵌入学习图表示是一类重要的问题。本文提出了一种嵌入有向无环图的新方法,使用证明能够更好地模拟树状结构的双曲空间,并使用一组嵌套的测地凸锥来定义分层关系,并证明这些蕴含锥体在欧几里得和双曲空间中均具有一种优化的形式,而且它们可以规范地定义嵌入学习过程。实验显示,我们的方法在表示能力和泛化方面都比最近的强有力的基线有显着的改进。
Apr, 2018
本文提出了一种新的有效注意机制,其在计算代价和内存使用方面远优于点积注意力,这种资源效率使得它能够更广泛和灵活地集成到网络中,提高了观察精度,可以用于物体检测、实例分割和立体深度估计等领域。
Dec, 2018
应用 Mahalanobis 距离计算注意力权重,将模型的特征空间在高上下文相关性方向进行拉伸,从而达到减少特征塌缩和提升模型鲁棒性的效果,验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。
Jun, 2024
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度,同时减少了 20% 的训练计算资源。
Feb, 2023
提出了一种与 Transformer 架构的自注意力机制兼容的替代性兼容函数,并在类似 BERT 模型的预训练中实现了对称的注意力机制,在 GLUE 基准测试中得分 79.36,减少了可训练参数数量的 6%,并将收敛前所需的训练步骤减少了一半。
Jun, 2024
本研究提出了一种高效的基于矩阵结构的层次注意力方法,并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的,相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点,在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。
Jul, 2021