FFSplit:一种用于优化语言模型推理精度和效率权衡的分割前馈网络
本文分析了 S-FFN 这种大而稀疏的前馈网络的两个主要设计选择:内存块(或专家)大小和内存块选择方法,并提供了它们相对有效性和效率的见解。在语言建模前训练中,我们发现一种更简单的选择方法 ——Avg-K,通过均值聚合隐藏状态选择块,可以比现有的 MoE 架构实现更低的困惑度。
May, 2023
本研究探讨了预训练模型 Transformers 中前馈网络(FFN)的计算模式,提出了一种将模型 MoEfication 为多个功能分区的方法,并建立了专家路由器以决定每个输入使用哪个专家。实验结果表明,这种方法可以在保持原始性能的同时使用 10%至 30%的 FFN 参数,同时提高了推断 FLOPS 的效率和提供了一个细粒度的视角来研究 FFN 的内部机制。
Oct, 2021
我们介绍了快速前馈(FFF)架构,它打破了层大小与推理成本之间的线性关系,通过引入对数时间的前馈网络的替代方案。我们展示了 FFF 在推理成本的指数分数上表现出与前馈网络相当的性能,与专家混合网络相比更快地提供性能,并且可以在 transformers 中取代它们。将 FFF 推到极限,我们训练了一个视觉 transformer,在只有 5.8% 性能下降的成本下执行单神经元推理。我们的实现可作为 Python 包使用,只需运行 “pip install fastfeedforward” 即可。
Aug, 2023
通过删除解码器层的 FFN 并在编码器中共享单个 FFN,我们能够大幅减少参数数量,只有轻微的准确率下降,最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸,从而取得了在准确率和延迟方面的显著提升。
Sep, 2023
通过结构化的前馈网络,使用线性层近似来减少大型语言模型的参数数量和计算成本,同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学,从而在训练和推断中实现高效和有效的结果。
Jun, 2024
本文针对大规模语言模型因其体积庞大、推理速度慢难以部署于边缘设备的问题,通过对 BERT 前馈网络进行优化实现高性能、高效率的 EfficientBERT 模型,取得了较好的性能表现。
Sep, 2021
通过研究 GEMM 基于前馈网络(FFN)的模块,我们提出了一种替代方案(称之为 LookupFFN),将大多数关键操作转化为内存查找,以减少所需的 FLOP,从而在 RoBERTa 语言模型预训练中实现类似性能。
Mar, 2024
本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构,利用多个较小的前馈神经网络来减少参数和计算量,同时保持重要的隐藏维度,并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法,对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。
Oct, 2023
基于超参数的 Transformer 网络是大规模语言模型的最新架构。本文提出了一种名为 FinerCut 的剪枝方法,它能够剪枝 Transformer 网络中的自注意力层和前馈神经网络层,以达到模型精简、可解释、多任务的剪枝效果。与之前的工作相比,FinerCut 的效果优于大多数任务,无需微调或后剪枝重建。该方法还提供了可视化工具,以观察被剪枝的层的类型和位置,为未来高效的语言模型设计提供了灵感。
May, 2024