Apr, 2024

抑制显著性,凸显语义:神经网络和大脑中的视觉转换

TL;DR深度学习算法在将原始视觉输入转化为强大的语义理解方面缺乏人类可解释的说明,阻碍了不同架构、训练目标和人类大脑之间的比较。本文从神经科学中汲取灵感,采用表征方法揭示神经网络在低层次(视觉显著性)和高层次(语义相似性)抽象水平上如何编码信息。此外,我们引入了一个自定义图像数据集,在其中系统性地操纵显著性和语义信息。我们发现,在使用对象分类目标进行训练时,ResNet 对显著性信息比 ViT 更敏感。我们发现网络在早期层次抑制显著性的过程,在 ResNet 中,自然语言监督(CLIP)进一步增强了这一过程。CLIP 还增强了两种架构中的语义编码。最后,我们展示了语义编码是将人工智能与人类视觉感知对齐的关键因素,而抑制显著性是一种非类脑策略。