抑制显著性，凸显语义：神经网络和大脑中的视觉转换

Apr, 2024

抑制显著性，凸显语义：神经网络和大脑中的视觉转换

Saliency Suppressed, Semantics Surfaced: Visual Transformations in Neural Networks and the Brain

Gustaw Opiełka, Jessica Loke, Steven Scholte

TL;DR深度学习算法在将原始视觉输入转化为强大的语义理解方面缺乏人类可解释的说明，阻碍了不同架构、训练目标和人类大脑之间的比较。本文从神经科学中汲取灵感，采用表征方法揭示神经网络在低层次（视觉显著性）和高层次（语义相似性）抽象水平上如何编码信息。此外，我们引入了一个自定义图像数据集，在其中系统性地操纵显著性和语义信息。我们发现，在使用对象分类目标进行训练时，ResNet 对显著性信息比 ViT 更敏感。我们发现网络在早期层次抑制显著性的过程，在 ResNet 中，自然语言监督（CLIP）进一步增强了这一过程。CLIP 还增强了两种架构中的语义编码。最后，我们展示了语义编码是将人工智能与人类视觉感知对齐的关键因素，而抑制显著性是一种非类脑策略。

Abstract

deep learning algorithms lack human-interpretable accounts of how they transform raw visual input into a robust semantic understanding, wh

deep learning algorithms visual input semantic understanding neural networks semantic encoding

发现论文，激发创造

深度视觉显著性模型的理解与可视化

通过分析深度显著性模型中间层个体神经元学习的特征表示，研究表明：一些视觉区域已经预先编码在对象识别的网络的各个层中，预先训练模型 fine-tuning 以进行显著性预测会使它们偏爱某些类别，在自然图像上，深层显著性模型胜于传统模型，但在人造刺激上表现反其道而行之。

Mar, 2019

深度显著性模型对视觉注意力的学习

通过分解隐含特征为可解释的基底，提出了一种新的分析框架，用于研究深度显著性模型成功背后的隐含特征、显著性预测的原理以及其对不同应用场景中的视觉注意力的影响。

Oct, 2023

基于上下文编码器 - 解码器网络的视觉显著性预测

该论文提出了一种基于卷积神经网络的方法，通过提取多尺度的高级视觉特征和上下文信息，结合全局场景信息，用于准确预测视觉显著性，可以适用于资源受限的应用，如（虚拟）机器人系统，从而在多个基准测试数据集上取得了有竞争力和一致的结果。

Feb, 2019

卷积神经网络的量化语义比较

本篇论文提出两种方法来量化 CNN 潜在空间中语义信息的相似度，以解决模型透明性问题。通过将这些方法应用于三种不同的目标检测器和两个数据集，我们的研究表明相似的语义概念是在所有 CNN 体系结构中学习的，且相似的概念出现在相似的相对层深度中，而与总层数无关。该研究成果有望实现 CNN 模型选择的知情和语义信息处理的理解。

Apr, 2023

使用深度卷积网络的语义感知图像压缩

应用深度学习的方法解决在损失图像和视频压缩中提高视觉质量的问题，通过训练一个特定的卷积神经网络，实现对图像语义的理解，并通过对每个对象训练特征的方式生成高质量的压缩图像。

Dec, 2016

基于多尺度深度特征的视觉显著性

本文介绍了使用卷积神经网络进行图像视觉显著性建模的方法，采用新的神经网络结构和改进的空间相关性方法，同时使用多重分割提高了性能，实验表明我们提出的方法在公共基准测试中的表现优于目前已发表的最先进技术。

Mar, 2015

基于层级结构的图像嵌入方法用于语义图像检索

该研究提出了通过将图像映射到类别嵌入中以学习语义鉴别性特征的方法，从而提高图像检索结果的语义一致性。结果显示在 CIFAR-100，NABirds 和 ImageNet 上，学习到的图像嵌入大大提高了图像检索结果的语义一致性。

Sep, 2018

基于多尺度深度 CNN 特征的视觉显著性检测

本研究采用深度卷积神经网络来提取多尺度特征，实现了高质量的图像显著性模型，另外还结合了手工特征，取得了很好的效果，提供了一个相应的实验数据集。

Sep, 2016

基于显著性训练提高深度神经网络在图像分类中的鲁棒性？

本文研究深度神经网络的鲁棒性问题，特别关注对抗样本的攻击。通过在线显著特征训练，得到视觉可解释性的特征，但实验结果显示，这些特征并不能提升模型对抗样本攻击的性能。

Jun, 2023

自监督变形器中抽象表征的形成与功能

通过研究小规模 transformer 在重建部分遮蔽的简单蓝图可视场景方面的内在机制，我们发现网络发展了一种包含数据集的所有语义特征的中间抽象表示或抽象，这些抽象表现为低维流形，其中语义相关令牌的嵌入短暂地收敛，从而实现了对下游计算的泛化。我们还引入了一种语言增强架构（LEA），旨在鼓励网络表达其计算过程，发现 LEA 发展了一种易于解释的以抽象为中心的语言，使我们更容易访问和指导网络的决策过程。

Dec, 2023