Apr, 2025
稀疏自编码器在视觉-语言模型中学习单语义特征
Sparse Autoencoders Learn Monosemantic Features in Vision-Language
Models
TL;DR本研究解决了视觉-语言模型(VLMs)中语义可解释性不足的问题,提出了基于稀疏自编码器(SAEs)的新框架来评估视觉特征的单语义性。实验结果表明,SAEs显著增强了个别神经元的单语义性,并成功地在无须修改基础模型的情况下,直接引导多模态大语言模型(LLMs)的输出,这凸显了SAEs在增强VLMs可解释性和可控性方面的实用性和有效性。