Transformer 前馈层中关键值记忆更新的实证研究
通过实验我们发现,transformer 模型中的前馈层作为键值内存操作,其键与训练示例中的文本模式相关,并且每个值在输出词汇表上引入一个分布。同时利用残差连接使得前馈层的输出分布集中于出现在每个模式后的可能出现的标记。
Dec, 2020
本文提出一种神经知识库及知识注入策略,将额外的事实知识注入到预训练模型中,验证了其对模型性能的提升,同时保证了模型通用语言建模能力的不变性,并探讨了知识库的可解释性和灵活性。
Jul, 2022
本文提出了一个新任务,即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识,并在此任务上基准化了几种方法,发现了用于知识修改的 Transformer 模型的关键组件,并提供了关于不同训练阶段(如预训练和微调)对记忆和知识修改所起作用的见解。
Dec, 2020
本研究探讨了预训练模型 Transformers 中前馈网络(FFN)的计算模式,提出了一种将模型 MoEfication 为多个功能分区的方法,并建立了专家路由器以决定每个输入使用哪个专家。实验结果表明,这种方法可以在保持原始性能的同时使用 10%至 30%的 FFN 参数,同时提高了推断 FLOPS 的效率和提供了一个细粒度的视角来研究 FFN 的内部机制。
Oct, 2021
通过分析 Transformer 中的前向模块,研究表明其可以被视为一系列键值记忆,提出了关于多语言模型中神经元对不同语言的响应不平等的假设,并通过实验证实了此假设。
Oct, 2023
本文提出预训练模型中知识神经元的概念并探究其如何存储事实知识,通过使用填空测试来确定知识神经元并证明其与对应事实的正相关性。进一步研究表明,可以利用知识神经元对特定的事实进行编辑并揭示了其存储知识的方式。
Apr, 2021
我们提出了一种简单的模型 Kformer,它通过在 Transformer 的 FFN 层中注入来自 PTMs 和外部知识的信息,利用了 PTMs 存储的知识和内部的数量知识神经元。实验结果表明,在常识推理和医学问答等知识密集型任务中,Kformer 的表现优于其他知识注入技术,如连接或基于注意力的注入。
Jan, 2022
本文研究了 Transformer 模型的架构,介绍了自注意力机制和前馈神经网络,并重建了 ReLU 和 Softmax 之间的关系,提出了使用额外层归一化模块的 Softmax 和 ReLU 相等的概念。此外,研究发现 ReLU 可以处理大量键值槽以及在输入序列很长时表现更出色,并提出了一个全 ReLU 模型–ReLUFormer,在文档翻译等长序列任务中表现更好。
Feb, 2023
通过删除解码器层的 FFN 并在编码器中共享单个 FFN,我们能够大幅减少参数数量,只有轻微的准确率下降,最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸,从而取得了在准确率和延迟方面的显著提升。
Sep, 2023