Aug, 2023

PMET: Transformer 中的精确模型编辑

TL;DR通过分析多头自注意力和前馈网络隐藏状态的信息流,本研究发现多头自注意力编码了特定的通用知识提取模式,因此引入了一种同时优化 Transformer 组件隐藏状态的方法(PMET),在只使用优化后的前馈网络隐藏状态精确更新前馈网络权重的同时,实现了更精确的模型编辑。