Dec, 2023

从分层分布的神经表征的光谱聚类中解读'What'和'Where'视觉通路

TL;DR我们提出了一种从大规模预训练视觉模型的行为中提取空间布局和语义分割的方法,通过分析神经网络激活中的分组信息,利用所有层的特征实现对网络激活状态的整体分析,而无需猜测模型的哪个部分包含相关信息。通过基于梯度下降的优化目标在各个层中的特征比较得到一组亲和矩阵,从而解决了这一优化问题。对预训练的生成转换器进行分析揭示了这类模型所学得的计算策略,而通过将亲和性与关键字查询相似性等同起来,可以得到编码场景空间布局的特征向量,而通过将亲和性与值向量相似性定义为特征向量,则可以得到编码对象身份的特征向量。这个结果表明,关键字和查询向量根据空间接近度协调关注信息流(一种“在哪里”路径),而值向量则用于完善语义类别表示(一种“是什么”路径)。