鬣狗等级制度:朝着更大的卷积语言模型
通过提取低维线性状态空间模型以及改进卷积层的结构,本文实现了每个标记的 O (1) 计算和内存开销,从而降低内存占用并提高生成过程的吞吐量,而无需牺牲质量。
Oct, 2023
介绍一种使用知识蒸馏进行架构间转移的方法,通过将注意力头替换为 Hyena,提供一种高效且经济的大规模语言模型预训练方法,既能处理长篇文本又能提高推理速度和准确性,以在 AI 领域追求可持续发展。
Jan, 2024
借鉴 Hyena 模型进行改进,我们提出了 ConfHyena 模型,以减少长序列语音处理的计算时间并保持较高的质量表现。在英语的自动语音识别和从英语到 8 种目标语言的翻译实验中,我们的 ConfHyena 模型在训练时间上节约了 27%,同时在质量下降方面仅为 1%,大多数情况下这种下降不具备统计学意义。
Feb, 2024
使用基于卷积的 Hyena 注意力替代方法,在图像分类中实现竞争力的 ImageNet-1k top-1 准确率,同时超过其他大核网络,并结合注意力进一步提高准确性。
Feb, 2024
通过使用基于多个轴的新型 Hyena 层,我们提出了一种不依赖于自注意力机制的高效视觉 Transformer,并且实验证明该方法在多个数据集上提升了各种 Vision Transformer 架构的性能。
Sep, 2023
HyenaDNA 是一个在人类参考基因组上进行预训练的基因组基础模型,具有长达 100 万个单核苷酸的上下文长度和单核苷酸层面的全局上下文,以及可用于简单调整以适应新任务而无需更新预训练模型权重的上下文学习能力,并在核苷酸转换器和基因组基准测试中达到了最先进的水平。
Jun, 2023
我们提出了一种名为 HiP 的新方法,通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T),空间复杂度从 O (T^2) 降低到 O (T),并且能够扩展到数百万个令牌的预训练 LLM 应用中。
Jun, 2024
线性注意力可以提高 Transformer 的效率,将注意力的二次复杂性降低到与序列长度线性相关。线性注意力在训练线性 Transformer、将任务特定的 Transformer 转换为线性版本以恢复任务性能以及将大型语言模型转换为可在下游任务上进行微调的线性版本等方面具有潜力。然而,线性注意力在质量上经常不如标准的 softmax 注意力。为了弥合这一性能差距,我们发现之前的线性注意力缺少与优秀性能相关的低熵(或 “尖峰”)权重和点积单调性等关键特性。我们进一步观察到保留这些特性并且与 softmax 性能相匹配的非常简单的特征映射,但在线性注意力中计算效率低下。因此,我们提出了 Hedgehog,它是一个可学习的线性注意力,保留 softmax 注意力的尖峰和单调性,同时保持线性复杂性。Hedgehog 使用简单的可训练的多层感知机(MLP)生成模仿 softmax 注意力的注意力权重。实验证明,Hedgehog 在从头训练和微调转换设置中恢复了超过 99% 的标准 Transformer 质量,在 WikiText-103 上通过因果 GPT 模型的困惑度高达 6 点,在微调的双向 BERT 上 GLUE 分数高达 8.7 点。Hedgehog 还实现了预训练转换。将预训练的 GPT-2 转换为线性注意力变体,在 125M 的次二次解码模型上,在 WikiText-103 中实现了 16.7 困惑度的最佳结果。最后,我们将预训练的 Llama-2 7B 转换为可行的线性注意力 Llama。通过低秩适应,Hedgehog-Llama2 7B 相比于基本标准注意力模型,ROUGE-1 分数提高了 28.1 个百分点,而之前的线性注意力则导致了 16.5 个百分点的降低。
Feb, 2024
介绍了一种针对大型图像的高效注意力操作 ——Hydra Attention,使用的多头注意力与特征数一样多,与元素数量和特征数量成线性关系,比现有的 self-attention 更快,同时在 ImageNet 数据集上保持了高准确性。
Sep, 2022
本研究提出了一种高效的基于矩阵结构的层次注意力方法,并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的,相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点,在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。
Jul, 2021