HyperZ・Z・W 运算符实现全上下文交互的慢速 - 快速网络连接
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度,同时减少了 20% 的训练计算资源。
Feb, 2023
本研究发现线性化自注意力机制与 90 年代早期的快速权重控制器存在正式等价,提出了一种基于增量规则编程指令的快速权重编程器,用以克服近期线性化 softmax 注意力变体的存储容量限制,以及提高动态学习率的计算效率,在合成检索问题以及标准机器翻译和语言模型任务上均获得明显优势。
Feb, 2021
该论文提出了一种新颖的 Transformer 风格模块,即 Contextual Transformer (CoT) 块,它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习,从而增强了视觉表示能力,可作为更强大的骨干网。
Jul, 2021
本文提出了一种新颖的实时语义分割神经网络,其中编码器既编码也生成解码器的参数 (权重),并且为了实现最大的适应性,每个解码器块的权重都在空间上有所变化。我们设计了一种新型的超网络,在其中,用于绘制高级上下文特征的嵌套 U-Net、多头权重生成模块,该模块在解码器使用权重之前立即生成解码器每个块的权重,以实现高效的内存利用,以及由新颖的动态面向补丁的卷积组成的主要网络。尽管使用了较不常见的块,但我们的架构实现了实时性能,在运行时间与准确性的权衡方面,在流行的语义分割基准测试上 (PASCAL VOC 2012, Cityscapes 和 CamVid) 的表现都超过了最先进的结果。
Dec, 2020
我们提出了一种名为 HiP 的新方法,通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T),空间复杂度从 O (T^2) 降低到 O (T),并且能够扩展到数百万个令牌的预训练 LLM 应用中。
Jun, 2024
介绍了一种增强大型语言模型在处理和理解大量文本序列方面能力的新方法,通过提出一种名为斑马的新型模型架构,有效地处理了 Transformer 中全注意力所带来的二次时间和内存复杂度问题,通过使用分组的局部 - 全局注意力层平衡局部和全局注意力,显著降低了计算需求和内存消耗,同时提高了训练和推理的效率。
Dec, 2023
使用基于卷积的 Hyena 注意力替代方法,在图像分类中实现竞争力的 ImageNet-1k top-1 准确率,同时超过其他大核网络,并结合注意力进一步提高准确性。
Feb, 2024
本文提出了一种名为 Sparse Connectivity Learning 的新型自动裁剪方法,通过使用二进制掩码描述网络连接,同时使用 Identity STE 进行离散掩码松弛。在目标函数中加入网络总连接数的正则化项,无需定义裁剪标准或超参数即可探索网络以实现最佳性能。实验结果表明,使用 SCL 训练的深度学习模型在稀疏度、准确性和 FLOPs 减少方面优于其他自动剪枝方法。
Jan, 2022