FFSplit：一种用于优化语言模型推理精度和效率权衡的分割前馈网络

Jan, 2024

FFSplit：一种用于优化语言模型推理精度和效率权衡的分割前馈网络

FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference

Zirui Liu, Qingquan Song, Qiang Charles Xiao, Sathiya Keerthi Selvaraj, Rahul Mazumder...

TL;DR优化预训练语言模型（PLM）在商用硬件上的部署，通过模型压缩技术提高效率，将 Feed-forward 网络划分为两部分以提高已有压缩方法的效果，并取得了可观的模型尺寸减小和推理速度提升的效果。

Abstract

The large number of parameters in pretrained language models enhance their performance, but also make them resource-intensive, making it challenging to deploy them on commodity hardware like a single GPU. Due to the memory and power limitations of these devices, →

pretrained language models model compression techniques feed-forward network efficiency-accuracy trade-off heavy hitters

发现论文，激发创造

大型语言模型预训练中稀疏前馈网络的统一视角

本文分析了 S-FFN 这种大而稀疏的前馈网络的两个主要设计选择：内存块（或专家）大小和内存块选择方法，并提供了它们相对有效性和效率的见解。在语言建模前训练中，我们发现一种更简单的选择方法 ——Avg-K，通过均值聚合隐藏状态选择块，可以比现有的 MoE 架构实现更低的困惑度。

May, 2023

MoEfication：Transformer 前馈层是专家混合层

本研究探讨了预训练模型 Transformers 中前馈网络（FFN）的计算模式，提出了一种将模型 MoEfication 为多个功能分区的方法，并建立了专家路由器以决定每个输入使用哪个专家。实验结果表明，这种方法可以在保持原始性能的同时使用 10％至 30％的 FFN 参数，同时提高了推断 FLOPS 的效率和提供了一个细粒度的视角来研究 FFN 的内部机制。

Oct, 2021

快速前馈网络

我们介绍了快速前馈（FFF）架构，它打破了层大小与推理成本之间的线性关系，通过引入对数时间的前馈网络的替代方案。我们展示了 FFF 在推理成本的指数分数上表现出与前馈网络相当的性能，与专家混合网络相比更快地提供性能，并且可以在 transformers 中取代它们。将 FFF 推到极限，我们训练了一个视觉 transformer，在只有 5.8% 性能下降的成本下执行单神经元推理。我们的实现可作为 Python 包使用，只需运行 “pip install fastfeedforward” 即可。

Aug, 2023

一种广泛前馈即可解决所有问题

通过删除解码器层的 FFN 并在编码器中共享单个 FFN，我们能够大幅减少参数数量，只有轻微的准确率下降，最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸，从而取得了在准确率和延迟方面的显著提升。

Sep, 2023

在高效基础上构建：利用结构化前馈层有效训练 LLMs

通过结构化的前馈网络，使用线性层近似来减少大型语言模型的参数数量和计算成本，同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学，从而在训练和推断中实现高效和有效的结果。

Jun, 2024

EfficientBERT: 通过热身知识蒸馏逐层搜索多层感知器

本文针对大规模语言模型因其体积庞大、推理速度慢难以部署于边缘设备的问题，通过对 BERT 前馈网络进行优化实现高性能、高效率的 EfficientBERT 模型，取得了较好的性能表现。

Sep, 2021

LookupFFN: 让 Transformer 在 CPU 推理中计算更轻巧

通过研究 GEMM 基于前馈网络（FFN）的模块，我们提出了一种替代方案（称之为 LookupFFN），将大多数关键操作转化为内存查找，以减少所需的 FLOP，从而在 RoBERTa 语言模型预训练中实现类似性能。

Mar, 2024

PartialFormer：建模部分而非整体

本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构，利用多个较小的前馈神经网络来减少参数和计算量，同时保持重要的隐藏维度，并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法，对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。

Oct, 2023

变压器前馈层通过在词汇空间中促进概念来建立预测

通过反向工程变压器模型中的前馈神经网络层的运算过程，分析其词汇空间中的更新，控制预测结果，提高计算效率。

Mar, 2022

FinerCut: 大型语言模型的精细化可解释层修剪

基于超参数的 Transformer 网络是大规模语言模型的最新架构。本文提出了一种名为 FinerCut 的剪枝方法，它能够剪枝 Transformer 网络中的自注意力层和前馈神经网络层，以达到模型精简、可解释、多任务的剪枝效果。与之前的工作相比，FinerCut 的效果优于大多数任务，无需微调或后剪枝重建。该方法还提供了可视化工具，以观察被剪枝的层的类型和位置，为未来高效的语言模型设计提供了灵感。

May, 2024