May, 2024
InversionView:从神经激活中提取信息的通用方法
InversionView: A General-Purpose Method for Reading Information from Neural Activations
Xinting Huang, Madhur Panwar, Navin Goyal, Michael Hahn
TL;DR我们提出了 InversionView 方法,通过从经过激活条件的训练解码器模型中抽样,实际检查输入子集,以便于理解变压器模型实现的算法,并展示了该方法的特征、优势和引起验证的电路。