拾獲的鬣狗：将 Transformer 精简为长卷积模型

Jan, 2024

拾獲的鬣狗：将 Transformer 精简为长卷积模型

Scavenging Hyena: Distilling Transformers into Long Convolution Models

Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang

TL;DR介绍一种使用知识蒸馏进行架构间转移的方法，通过将注意力头替换为 Hyena，提供一种高效且经济的大规模语言模型预训练方法，既能处理长篇文本又能提高推理速度和准确性，以在 AI 领域追求可持续发展。

Abstract

The rapid evolution of large language models (LLMs), epitomized by architectures like GPT-4, has reshaped the landscape of natural language processing. This paper introduces a pioneering approach to address the efficiency concerns associated with LLM →

large language models knowledge distillation hyena mechanism pre-training computational power

发现论文，激发创造

豪笑鬣狗酿酒厂：从卷积中提取紧凑的重现

通过提取低维线性状态空间模型以及改进卷积层的结构，本文实现了每个标记的 O (1) 计算和内存开销，从而降低内存占用并提高生成过程的吞吐量，而无需牺牲质量。

Oct, 2023

鬣狗等级制度：朝着更大的卷积语言模型

本文介绍了 Hyena，一种亚二次的 attention 替代方法，它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建，能够有效地解决 Transformers 中 quadratic cost 的问题，并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度，同时减少了 20% 的训练计算资源。

Feb, 2023

高效 Transformer 知识蒸馏：绩效评估

对高效注意力转换模型进行知识蒸馏的模型压缩评估，并通过新的长上下文命名实体识别数据集 GONERD 验证了高效注意力转换模型在保持原始模型性能的同时降低推理时间的效果。

Nov, 2023

在长上下文大语言模型中推进 Transformer 架构的综合调查

该研究论文主要针对基于 Transformer 的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023

压缩转换器语言模型的任务无关蒸馏方法的比较分析

通过多项实验研究，我们发现基于 MiniLMv2 的 Multi-Head Attention 转移是蒸馏中更优选的方法，并解释了其成功的可能原因。此外，我们还发现基于 Hidden State 转移的方法在精妙的层映射策略下依然是竞争性的基准，而 Output Distribution 转移一直落后于其他方法。研究结果帮助我们为延迟关键应用部署高效且有效的学生模型。

Oct, 2023

MiniLM: 预训练 Transformer 的深度自注意力蒸馏的任务无关压缩

本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏，提出了一种简单有效的压缩大型预训练模型的方法，同时引入了新的 “缩放点积” 深层自我注意知识，并在这个基础上设计了一个小留学生模型来减少参数量和延迟，实现了对 GLUE 质量基准测试的有效超越。

Feb, 2020

鬣狗如何处理人类语音？使用 ConfHyena 进行语音识别和翻译

借鉴 Hyena 模型进行改进，我们提出了 ConfHyena 模型，以减少长序列语音处理的计算时间并保持较高的质量表现。在英语的自动语音识别和从英语到 8 种目标语言的翻译实验中，我们的 ConfHyena 模型在训练时间上节约了 27％，同时在质量下降方面仅为 1％，大多数情况下这种下降不具备统计学意义。

Feb, 2024

大型语言模型的概念与实施调查

基于 Transformer 架构的大型语言模型（LLMs）的近期进展在自然语言处理（NLP）应用领域展示了显著的拓宽范围，超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用，重点关注 GPT 系列，对人工智能（AI）驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究，同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展，Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究，突出了其多功能性和在实际应用领域中转型的潜力，从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。

Mar, 2024

通过解耦知识蒸馏，用 LSTM 压缩 HuBERT

将知识蒸馏方法应用于压缩 HuBERT 的 Transformer 层，减少参数数量并在自动语音识别中提升性能。

Sep, 2023

分层 Transformer 是更高效的语言模型

通过建立分层结构的 Transformer 模型 Hourglass，让 Transformer 可以更加高效地处理长序列，在 ImageNet32 生成任务方面表现出新的最先进，同时提高了在广泛研究的 enwik8 基准上的语言建模效率。

Oct, 2021