Sep, 2023

稀疏自编码器发现语言模型中的高度可解释特征

TL;DR使用稀疏自编码器识别语言模型内部的方向,以消除超级位置现象,并达到模型的透明度和可操控性。