针对 Transformer 的预训练和推理的并行注意力和前馈网络设计
通过删除解码器层的 FFN 并在编码器中共享单个 FFN,我们能够大幅减少参数数量,只有轻微的准确率下降,最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸,从而取得了在准确率和延迟方面的显著提升。
Sep, 2023
该研究引入了 attention forcing 的两种扩展来解决离散输出的任务中的挑战,包括 scheduled attention forcing 来自动开启和关闭 attention forcing,以及 parallel attention forcing 使训练并行化。实验结果表明,这些方法可以提高基于 RNN 和 Transformer 的模型的性能。
Nov, 2022
本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构,利用多个较小的前馈神经网络来减少参数和计算量,同时保持重要的隐藏维度,并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法,对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。
Oct, 2023
利用新的并行训练范式,这篇论文介绍了 PAFT,它独立对大语言模型进行 SFT 和偏好对齐,并通过参数融合将它们合并成一个用于下游应用的最终模型,提高了模型的性能。
Jun, 2024
本研究比较了基于 Transformer 的语言模型中的注意力机制和傅里叶变换,并提出了几种采用更高效的傅里叶变换的模型架构,以提高模型效率。
Sep, 2022
本研究提出了一种新的方法 NAFA(神经注意森林),该方法将注意机制引入了随机森林,通过在决策树叶子节点的数据和随机森林本身之间分配由特定形式的神经网络计算得出的注意力权重,在 Nadaraya-Watson 核回归框架下实现了回归和分类任务。
Apr, 2023
本文提出了一种新的理解 Self-Attention Network (SAN) 和 Feed-Forward Network (FFN) 为遮罩注意力网络 (Mask Attention Networks),并展示了它们是具有固定遮罩矩阵的 MAN 的两个特例。但是,它们的静态遮罩矩阵限制了文本表示学习中的本地性建模能力。因此,我们引入了一种新的层,名为动态遮罩注意力网络 (DMAN),它具有可学习的遮罩矩阵,可以自适应地建模本地性。为了结合 DMAN、SAN 和 FFN 的优点,我们提出了一个顺序分层结构。在各种任务(包括神经机器翻译和文本摘要)上的广泛实验证明,我们的模型优于原来的 Transformer。
Mar, 2021
我们提出了一种名为反馈注意力记忆(FAM)的新型 Transformer 架构,利用反馈循环使网络能够关注自身的潜在表示,从而促进 Transformer 内部的工作记忆的出现,使其能够处理无限长的序列。通过实验证明,TransformerFAM 在长文本任务中显著改善了 Transformer 的性能,无论模型大小为 1B、8B 还是 24B。这些结果展示了使大型语言模型能够处理无限长序列的潜力。
Apr, 2024
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
Jul, 2019
我们提出了一种新颖的并行适应重新激活(PYRA)方法,用于训练和推理效率高的任务适应,通过并行产生自适应权重和标记激活策略,以在大规模基础模型中同时保持训练和推理的效率。
Mar, 2024