拾獲的鬣狗:将 Transformer 精简为长卷积模型
通过提取低维线性状态空间模型以及改进卷积层的结构,本文实现了每个标记的 O (1) 计算和内存开销,从而降低内存占用并提高生成过程的吞吐量,而无需牺牲质量。
Oct, 2023
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度,同时减少了 20% 的训练计算资源。
Feb, 2023
对高效注意力转换模型进行知识蒸馏的模型压缩评估,并通过新的长上下文命名实体识别数据集 GONERD 验证了高效注意力转换模型在保持原始模型性能的同时降低推理时间的效果。
Nov, 2023
该研究论文主要针对基于 Transformer 的大型语言模型的长上下文能力进行了模型架构的改进,并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。
Nov, 2023
通过多项实验研究,我们发现基于 MiniLMv2 的 Multi-Head Attention 转移是蒸馏中更优选的方法,并解释了其成功的可能原因。此外,我们还发现基于 Hidden State 转移的方法在精妙的层映射策略下依然是竞争性的基准,而 Output Distribution 转移一直落后于其他方法。研究结果帮助我们为延迟关键应用部署高效且有效的学生模型。
Oct, 2023
本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏,提出了一种简单有效的压缩大型预训练模型的方法,同时引入了新的 “缩放点积” 深层自我注意知识,并在这个基础上设计了一个小留学生模型来减少参数量和延迟,实现了对 GLUE 质量基准测试的有效超越。
Feb, 2020
借鉴 Hyena 模型进行改进,我们提出了 ConfHyena 模型,以减少长序列语音处理的计算时间并保持较高的质量表现。在英语的自动语音识别和从英语到 8 种目标语言的翻译实验中,我们的 ConfHyena 模型在训练时间上节约了 27%,同时在质量下降方面仅为 1%,大多数情况下这种下降不具备统计学意义。
Feb, 2024
基于 Transformer 架构的大型语言模型(LLMs)的近期进展在自然语言处理(NLP)应用领域展示了显著的拓宽范围,超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用,重点关注 GPT 系列,对人工智能(AI)驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究,同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展,Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究,突出了其多功能性和在实际应用领域中转型的潜力,从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。
Mar, 2024
通过建立分层结构的 Transformer 模型 Hourglass,让 Transformer 可以更加高效地处理长序列,在 ImageNet32 生成任务方面表现出新的最先进,同时提高了在广泛研究的 enwik8 基准上的语言建模效率。
Oct, 2021