May, 2023

解读 Transformer 的注意力动态记忆与可视化 GPT 的语义信息流

TL;DR通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释,我们可以将 GPT 的前向传递可视化为交互式流图,从而发现模型输出结果的原因和 LM 组件在模型中的作用。