豪笑鬣狗酿酒厂:从卷积中提取紧凑的重现
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度,同时减少了 20% 的训练计算资源。
Feb, 2023
介绍一种使用知识蒸馏进行架构间转移的方法,通过将注意力头替换为 Hyena,提供一种高效且经济的大规模语言模型预训练方法,既能处理长篇文本又能提高推理速度和准确性,以在 AI 领域追求可持续发展。
Jan, 2024
借鉴 Hyena 模型进行改进,我们提出了 ConfHyena 模型,以减少长序列语音处理的计算时间并保持较高的质量表现。在英语的自动语音识别和从英语到 8 种目标语言的翻译实验中,我们的 ConfHyena 模型在训练时间上节约了 27%,同时在质量下降方面仅为 1%,大多数情况下这种下降不具备统计学意义。
Feb, 2024
使用基于卷积的 Hyena 注意力替代方法,在图像分类中实现竞争力的 ImageNet-1k top-1 准确率,同时超过其他大核网络,并结合注意力进一步提高准确性。
Feb, 2024
我们的研究发现了 Transformer 模型中一个被忽视的异常行为,称之为 “Transformers 的头痛”,并引入了一种名为 Collinear Constrained Attention (CoCA) 的新型自注意结构,以解决该问题,并实现优秀的外推性能,同时提高了 CoCA 的计算和空间效率。
Sep, 2023
HyenaDNA 是一个在人类参考基因组上进行预训练的基因组基础模型,具有长达 100 万个单核苷酸的上下文长度和单核苷酸层面的全局上下文,以及可用于简单调整以适应新任务而无需更新预训练模型权重的上下文学习能力,并在核苷酸转换器和基因组基准测试中达到了最先进的水平。
Jun, 2023
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
通过使用合成语言建模任务,我们提出了一种新的 H3 SSM 层来弥补 SSMs 与注意力模型之间的表达能力差距,并引入 FlashConv 来提高模型在现代硬件上的训练效率并在 SuperGLUE 基准测试中优于 Transformers。
Dec, 2022
对高效注意力转换模型进行知识蒸馏的模型压缩评估,并通过新的长上下文命名实体识别数据集 GONERD 验证了高效注意力转换模型在保持原始模型性能的同时降低推理时间的效果。
Nov, 2023