Apr, 2024

Transformer 可解释性转移到 RNN 中吗?

TL;DR最近在递归神经网络(RNN)架构方面取得的进展,例如 Mamba 和 RWKV,使得 RNN 在语言建模困惑度和下游评估方面与同等规模的变压器相匹配或超过,这表明未来的系统可能会建立在全新的架构之上。本文研究了最初设计用于变压器语言模型的选定可解释性方法是否适用于这些新兴的递归神经网络架构。具体来说,我们专注于通过对比激活添加来控制模型输出,使用调整后的镜头引发潜在预测,并从针对特定条件下生成错误输出的模型中获取潜在知识。我们的结果表明,当应用于 RNN 时,这些技术大多是有效的,并且我们还展示了通过利用 RNN 的压缩状态,可以改善其中一些技术。