Oct, 2023

PartialFormer:建模部分而非整体

TL;DR本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构,利用多个较小的前馈神经网络来减少参数和计算量,同时保持重要的隐藏维度,并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法,对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。