Transformer 前馈层中关键值记忆更新的实证研究

ICLRFeb, 2024

Transformer 前馈层中关键值记忆更新的实证研究

Empirical Study on Updating Key-Value Memories in Transformer Feed-forward Layers

Zihan Qiu, Zeyu Huang, Youcheng Huang, Jie Fu

TL;DR通过在大型语言模型中的知识编辑和微调任务中比较更新键或值的两种方法，我们对 transformer 中的前馈网络进行了实证消融研究，从而更好地理解前馈网络作为一组键值神经存储器来恢复抽象高层知识。

Abstract

The feed-forward networks (FFNs) in transformers are recognized as a group of key-value neural memories to restore abstract high-level knowledge. In this work, we conduct an empirical →

feed-forward networks transformers ablation study knowledge editing language models

发现论文，激发创造

Transformer 前馈层即键值内存

通过实验我们发现，transformer 模型中的前馈层作为键值内存操作，其键与训练示例中的文本模式相关，并且每个值在输出词汇表上引入一个分布。同时利用残差连接使得前馈层的输出分布集中于出现在每个模式后的可能出现的标记。

Dec, 2020

变压器前馈层通过在词汇空间中促进概念来建立预测

通过反向工程变压器模型中的前馈神经网络层的运算过程，分析其词汇空间中的更新，控制预测结果，提高计算效率。

Mar, 2022

预训练转换器的神经知识库

本文提出一种神经知识库及知识注入策略，将额外的事实知识注入到预训练模型中，验证了其对模型性能的提升，同时保证了模型通用语言建模能力的不变性，并探讨了知识库的可解释性和灵活性。

Jul, 2022

修改 Transformer 模型中的记忆

本文提出了一个新任务，即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识，并在此任务上基准化了几种方法，发现了用于知识修改的 Transformer 模型的关键组件，并提供了关于不同训练阶段（如预训练和微调）对记忆和知识修改所起作用的见解。

Dec, 2020

MoEfication：Transformer 前馈层是专家混合层

本研究探讨了预训练模型 Transformers 中前馈网络（FFN）的计算模式，提出了一种将模型 MoEfication 为多个功能分区的方法，并建立了专家路由器以决定每个输入使用哪个专家。实验结果表明，这种方法可以在保持原始性能的同时使用 10％至 30％的 FFN 参数，同时提高了推断 FLOPS 的效率和提供了一个细粒度的视角来研究 FFN 的内部机制。

Oct, 2021

揭示 Transformer 模型中的多语言性：探索前向网络中的语言特征

通过分析 Transformer 中的前向模块，研究表明其可以被视为一系列键值记忆，提出了关于多语言模型中神经元对不同语言的响应不平等的假设，并通过实验证实了此假设。

Oct, 2023

预训练变压器网络中的知识神经元

本文提出预训练模型中知识神经元的概念并探究其如何存储事实知识，通过使用填空测试来确定知识神经元并证明其与对应事实的正相关性。进一步研究表明，可以利用知识神经元对特定的事实进行编辑并揭示了其存储知识的方式。

Apr, 2021

Kformer：Transformer 前馈层中的知识注入

我们提出了一种简单的模型 Kformer，它通过在 Transformer 的 FFN 层中注入来自 PTMs 和外部知识的信息，利用了 PTMs 存储的知识和内部的数量知识神经元。实验结果表明，在常识推理和医学问答等知识密集型任务中，Kformer 的表现优于其他知识注入技术，如连接或基于注意力的注入。

Jan, 2022

Transformer 中 ReLU 和 Softmax 的研究

本文研究了 Transformer 模型的架构，介绍了自注意力机制和前馈神经网络，并重建了 ReLU 和 Softmax 之间的关系，提出了使用额外层归一化模块的 Softmax 和 ReLU 相等的概念。此外，研究发现 ReLU 可以处理大量键值槽以及在输入序列很长时表现更出色，并提出了一个全 ReLU 模型–ReLUFormer，在文档翻译等长序列任务中表现更好。

Feb, 2023

一种广泛前馈即可解决所有问题

通过删除解码器层的 FFN 并在编码器中共享单个 FFN，我们能够大幅减少参数数量，只有轻微的准确率下降，最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸，从而取得了在准确率和延迟方面的显著提升。

Sep, 2023