Jan, 2023

追踪和操作神经数学问题求解器中的中间值

TL;DR针对语言模型处理多步推理的复杂输入方式缺乏深刻理解的状况,本研究提出了通过基于简单算术问题及其中间值来分析 Transformer 模型处理这些输入的方法,并使用 PCA 测量了模型激活和中间值之间的相关性。结果显示模型对特定中间值有局部性,这有助于增强模型的可解释性。