Apr, 2025
Prisma:一个用于视觉和视频机制可解释性的开源工具包
Prisma: An Open Source Toolkit for Mechanistic Interpretability in
Vision and Video
TL;DR本研究解决了视觉机制可解释性研究中缺乏可访问框架和预训练权重的问题。文章提出了Prisma,这是一个开源框架,提供了统一的工具包以加速视觉机制可解释性研究,包括75个以上的视觉和视频变换器、稀疏自编码器的支持以及80多个预训练权重。研究发现,有效的视觉自编码器可以表现出显著低于语言自编码器的稀疏性模式,这为理解视觉模型内部工作机制开辟了新的研究方向。