豪笑鬣狗酿酒厂：从卷积中提取紧凑的重现

Oct, 2023

豪笑鬣狗酿酒厂：从卷积中提取紧凑的重现

Laughing Hyena Distillery: Extracting Compact Recurrences From Convolutions

Stefano Massaroli, Michael Poli, Daniel Y. Fu, Hermann Kumbong, Rom N. Parnichkun...

TL;DR通过提取低维线性状态空间模型以及改进卷积层的结构，本文实现了每个标记的 O (1) 计算和内存开销，从而降低内存占用并提高生成过程的吞吐量，而无需牺牲质量。

Abstract

Recent advances in attention-free sequence models rely on convolutions as alternatives to the attention operator at the core of Transformers. In particular, →

attention-free sequence models convolutions long convolution sequence models pre-trained long convolution architecture hyena

发现论文，激发创造

鬣狗等级制度：朝着更大的卷积语言模型

本文介绍了 Hyena，一种亚二次的 attention 替代方法，它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建，能够有效地解决 Transformers 中 quadratic cost 的问题，并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度，同时减少了 20% 的训练计算资源。

Feb, 2023

拾獲的鬣狗：将 Transformer 精简为长卷积模型

介绍一种使用知识蒸馏进行架构间转移的方法，通过将注意力头替换为 Hyena，提供一种高效且经济的大规模语言模型预训练方法，既能处理长篇文本又能提高推理速度和准确性，以在 AI 领域追求可持续发展。

Jan, 2024

鬣狗如何处理人类语音？使用 ConfHyena 进行语音识别和翻译

借鉴 Hyena 模型进行改进，我们提出了 ConfHyena 模型，以减少长序列语音处理的计算时间并保持较高的质量表现。在英语的自动语音识别和从英语到 8 种目标语言的翻译实验中，我们的 ConfHyena 模型在训练时间上节约了 27％，同时在质量下降方面仅为 1％，大多数情况下这种下降不具备统计学意义。

Feb, 2024

HyenaPixel：基于卷积的全局图像上下文

使用基于卷积的 Hyena 注意力替代方法，在图像分类中实现竞争力的 ImageNet-1k top-1 准确率，同时超过其他大核网络，并结合注意力进一步提高准确性。

Feb, 2024

通过共线受限注意力解决 Transformer 的头痛问题

我们的研究发现了 Transformer 模型中一个被忽视的异常行为，称之为 “Transformers 的头痛”，并引入了一种名为 Collinear Constrained Attention (CoCA) 的新型自注意结构，以解决该问题，并实现优秀的外推性能，同时提高了 CoCA 的计算和空间效率。

Sep, 2023

突破注意力瓶颈

通过开发一种生成函数来解决基于关注机制的注意力变量效率低的问题，该方法在处理变长输入序列和建模长程依赖方面具有更小的模型和更小的损失。

Jun, 2024

HyenaDNA：基于单核苷酸的远距离基因组序列建模

HyenaDNA 是一个在人类参考基因组上进行预训练的基因组基础模型，具有长达 100 万个单核苷酸的上下文长度和单核苷酸层面的全局上下文，以及可用于简单调整以适应新任务而无需更新预训练模型权重的上下文学习能力，并在核苷酸转换器和基因组基准测试中达到了最先进的水平。

Jun, 2023

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

饥饿的河马：基于状态空间模型的语言建模

通过使用合成语言建模任务，我们提出了一种新的 H3 SSM 层来弥补 SSMs 与注意力模型之间的表达能力差距，并引入 FlashConv 来提高模型在现代硬件上的训练效率并在 SuperGLUE 基准测试中优于 Transformers。

Dec, 2022

高效 Transformer 知识蒸馏：绩效评估

对高效注意力转换模型进行知识蒸馏的模型压缩评估，并通过新的长上下文命名实体识别数据集 GONERD 验证了高效注意力转换模型在保持原始模型性能的同时降低推理时间的效果。

Nov, 2023