HyperZ・Z・W 运算符实现全上下文交互的慢速 - 快速网络连接

Jan, 2024

HyperZ・Z・W 运算符实现全上下文交互的慢速 - 快速网络连接

HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full Context Interaction

Harvie Zhang

TL;DR本研究探讨了通过采用大型隐式核函数来实现网络每层的全局上下文交互，并引入了多分支隐藏表示、特征提取等创新组件构建的 Terminator 架构，通过实验证明此架构在像素级 1D 和 2D 图像分类任务中表现出优秀的性能。

Abstract

The self-attention mechanism utilizes large implicit weight matrices, programmed through dot product-based activations with very few trainable parameters, to enable long sequence modeling. In this paper, we investigate the possibility of discarding →

self-attention mechanism residual learning implicit kernels terminator architecture feature extraction

发现论文，激发创造

鬣狗等级制度：朝着更大的卷积语言模型

本文介绍了 Hyena，一种亚二次的 attention 替代方法，它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建，能够有效地解决 Transformers 中 quadratic cost 的问题，并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度，同时减少了 20% 的训练计算资源。

Feb, 2023

线性变换器秘密是快速权重编程器

本研究发现线性化自注意力机制与 90 年代早期的快速权重控制器存在正式等价，提出了一种基于增量规则编程指令的快速权重编程器，用以克服近期线性化 softmax 注意力变体的存储容量限制，以及提高动态学习率的计算效率，在合成检索问题以及标准机器翻译和语言模型任务上均获得明显优势。

Feb, 2021

针对视觉识别的上下文转换网络

该论文提出了一种新颖的 Transformer 风格模块，即 Contextual Transformer (CoT) 块，它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习，从而增强了视觉表示能力，可作为更强大的骨干网。

Jul, 2021

上下文感知自注意力网络

通过上下文信息来提高自注意力网络有效性的研究表明，利用内部嵌入全局和深度上下文的方式来上下文化查询和键层变换可以提高翻译任务的性能.

Feb, 2019

HyperSeg: 面向实时语义分割的块状超网络

本文提出了一种新颖的实时语义分割神经网络，其中编码器既编码也生成解码器的参数 (权重)，并且为了实现最大的适应性，每个解码器块的权重都在空间上有所变化。我们设计了一种新型的超网络，在其中，用于绘制高级上下文特征的嵌套 U-Net、多头权重生成模块，该模块在解码器使用权重之前立即生成解码器每个块的权重，以实现高效的内存利用，以及由新颖的动态面向补丁的卷积组成的主要网络。尽管使用了较不常见的块，但我们的架构实现了实时性能，在运行时间与准确性的权衡方面，在流行的语义分割基准测试上 (PASCAL VOC 2012, Cityscapes 和 CamVid) 的表现都超过了最先进的结果。

Dec, 2020

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

HiP 注意力：带有分层注意力修剪的稀疏次二次注意力

我们提出了一种名为 HiP 的新方法，通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T)，空间复杂度从 O (T^2) 降低到 O (T)，并且能够扩展到数百万个令牌的预训练 LLM 应用中。

Jun, 2024

扩展上下文窗口的逐层分组局部全局注意力

介绍了一种增强大型语言模型在处理和理解大量文本序列方面能力的新方法，通过提出一种名为斑马的新型模型架构，有效地处理了 Transformer 中全注意力所带来的二次时间和内存复杂度问题，通过使用分组的局部 - 全局注意力层平衡局部和全局注意力，显著降低了计算需求和内存消耗，同时提高了训练和推理的效率。

Dec, 2023

HyenaPixel：基于卷积的全局图像上下文

使用基于卷积的 Hyena 注意力替代方法，在图像分类中实现竞争力的 ImageNet-1k top-1 准确率，同时超过其他大核网络，并结合注意力进一步提高准确性。

Feb, 2024

神经网络的自动稀疏连通性学习

本文提出了一种名为 Sparse Connectivity Learning 的新型自动裁剪方法，通过使用二进制掩码描述网络连接，同时使用 Identity STE 进行离散掩码松弛。在目标函数中加入网络总连接数的正则化项，无需定义裁剪标准或超参数即可探索网络以实现最佳性能。实验结果表明，使用 SCL 训练的深度学习模型在稀疏度、准确性和 FLOPs 减少方面优于其他自动剪枝方法。

Jan, 2022