变压器前馈层通过在词汇空间中促进概念来建立预测
通过实验我们发现,transformer 模型中的前馈层作为键值内存操作,其键与训练示例中的文本模式相关,并且每个值在输出词汇表上引入一个分布。同时利用残差连接使得前馈层的输出分布集中于出现在每个模式后的可能出现的标记。
Dec, 2020
通过分析 Transformer 中的前向模块,研究表明其可以被视为一系列键值记忆,提出了关于多语言模型中神经元对不同语言的响应不平等的假设,并通过实验证实了此假设。
Oct, 2023
通过使用线性转换法,我们展示了在语言模型中激活层早期的内部决策过程,这种方法不仅可以产生更加精确的近似结果,还具有节省计算资源的优点。
Mar, 2023
基于人类行为学视角,我们探究了大型语言模型(LLMs)的预测过程和内部机制,通过将 LLMs 的值与眼动测量结果相关联,发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外,随着前馈网络(FFN layers)的升级,记忆和语言知识编码的能力也逐渐提升直至达到巅峰,并转向注重理解能力。自注意力机制的功能分布在多个头部。最后,我们审查了门控机制,发现它们控制信息的流动,有些门控机制促进信息的传递,而其他门控机制则消除信息。
Oct, 2023
通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释,我们可以将 GPT 的前向传递可视化为交互式流图,从而发现模型输出结果的原因和 LM 组件在模型中的作用。
May, 2023
通过删除解码器层的 FFN 并在编码器中共享单个 FFN,我们能够大幅减少参数数量,只有轻微的准确率下降,最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸,从而取得了在准确率和延迟方面的显著提升。
Sep, 2023
通过在大型语言模型中的知识编辑和微调任务中比较更新键或值的两种方法,我们对 transformer 中的前馈网络进行了实证消融研究,从而更好地理解前馈网络作为一组键值神经存储器来恢复抽象高层知识。
Feb, 2024
本研究探讨了预训练模型 Transformers 中前馈网络(FFN)的计算模式,提出了一种将模型 MoEfication 为多个功能分区的方法,并建立了专家路由器以决定每个输入使用哪个专家。实验结果表明,这种方法可以在保持原始性能的同时使用 10%至 30%的 FFN 参数,同时提高了推断 FLOPS 的效率和提供了一个细粒度的视角来研究 FFN 的内部机制。
Oct, 2021
通过对 Transformer 模型内部结构的分析,探讨了每个组件对文本语境化的作用,实验发现每个组件都对不同程度的语境化产生了影响,并且有些组件的作用相互抵消,更新了我们关于 Transformer 层各个组件作用的常见认识。
Feb, 2023
多语言模型(LLMs)中的多语言能力和处理机制的体系结构、激活模式和处理方法的深入分析的研究结果表明模型的层次结构和深度对多语言处理能力有影响。
Apr, 2024