Apr, 2025
利用稀疏自编码器引导CLIP的视觉变换器
Steering CLIP's vision transformer with sparse autoencoders
TL;DR本研究解决了视觉模型内部机制理解不足的问题,通过在CLIP的视觉变换器上训练稀疏自编码器(SAEs),揭示了视觉与语言处理之间的关键差异,尤其是各层和token类型的稀疏性模式。研究还系统分析了CLIP视觉变换器的可引导性,发现10-15%的神经元和特征可被引导,从而在三项视觉解耦任务中(CelebA, Waterbirds和排版攻击)提升了性能,实现了领先的防御能力。