基于卷积神经网络的更好输入掩模设计

Nov, 2022

基于卷积神经网络的更好输入掩模设计

Towards Better Input Masking for Convolutional Neural Networks

Sriram Balasubramanian, Soheil Feizi

TL;DR为了使卷积神经网络更易于解释，我们提出了一种被称为层遮蔽的遮蔽技术，可以模拟仅对未遮蔽的输入运行 CNN 的效果，并发现该方法能够消除 CNN 与变压器之间的可解释性差距，甚至在许多情况下使 CNN 更易于解释。

Abstract

The ability to remove features from the input of machine learning models is very important to understand and interpret model predictions. However, this is non-trivial for vision models since masking out parts of

machine learning vision models interpretability masking techniques cnns

发现论文，激发创造

计算机视觉模型中背景偏差去除的遮盖策略

我们的研究调查了背景引起的偏见对细粒度图像分类的影响，并评估了卷积神经网络和视觉变换器等标准骨干模型在不同遮罩策略下的行为，得出早期遮罩在 ODD 性能方面表现最佳的结论。

Aug, 2023

掩蔽以改进卷积神经网络的对比式自监督学习，并揭示显著性

通过在卷积神经网络中引入掩蔽操作作为额外的数据增强方法，并显式考虑显著性约束，本研究提出了一种改进的对比学习框架，以减轻包括掩蔽操作在内的对比学习中存在的问题，并在多个数据集、对比学习机制和下游任务上进行的广泛实验验证了其有效性和卓越性能。

Sep, 2023

神经模型中不同层次的决策是如何产生的？可微掩模解释

该研究提出了一种 Differentiable Masking 的方法，通过预测而非搜索的方式学习掩蔽输入的子集，以此解决模型剪枝的过于激进以及揭示模型层之间的决策形成，研究了 DiffMask 在 BERT 模型上对情感分类和问答的应用。

Apr, 2020

基于掩膜图像训练的通用深度图像去噪技术

本文提出了一种蒙版训练的方法，通过遮盖输入图像的随机像素并在训练期间重建丢失的信息，同时遮盖自注意力层中的特征以避免训练 - 测试不一致性的影响，从而提高了去噪网络的泛化能力。

Mar, 2023

学习变分词掩模以提高神经文本分类器的可解释性

本文提出了一种用于自动学习任务特定重要单词和减少非相关信息的变分词掩码方法，以改善模型预测的可解释性，并在七个基准文本分类数据集上评估了其有效性，证明了 VMASK 在提高模型预测准确性和可解释性方面的有效性。

Oct, 2020

MixMask：重访 Siamese ConvNets 的遮蔽策略

本研究结合 Masked Image Modeling (MIM) 和 Siamese Networks 的自我监督学习方法，通过 MixMask 构建填充式遮蔽策略，创新性地提出了一种新的 MIM 和 Siamese ConvNets 混合方法。在 CIFAR-100，Tiny ImageNet 和 ImageNet-1K 等数据集上进行了广泛的实验，证明该方法在线性探测、半监督和监督微调等任务上均能取得明显的优势。同时在目标检测和分割任务中也有显著的改进。

Oct, 2022

神经网络可解释性的解释掩码

本研究提出通过次级神经网络生成解释性掩码的方法，以解释预训练的神经网络预测中的重要因素，通过在保留较高预测准确性的同时生成最小的解释。该方法在卷积神经网络的图像分类、循环神经网络的情感分析以及混合卷积神经网络 / 循环神经网络的化学属性预测中具有广泛的应用。

Nov, 2019

高效的视觉 - 语言预训练：基于聚类遮挡

我们提出了一种简单的策略，用于在视觉语言对比学习中遮盖图像补丁，从而提高所学表示的质量和训练速度。该策略随机遮盖视觉上相似的图像补丁群集，并通过强制模型仅根据上下文预测遮盖的视觉结构的单词，提供额外的学习信号，从而超过其他遮盖策略（如 FLIP）在所学表示的质量方面表现良好，并且通过减少每个图像中使用的数据来加速训练。

May, 2024

用于模型可解释性的基于遮罩的显著性方法研究与简化

本研究采用掩蔽技术生成显著性地图，发现训练分类器的同时，采用掩蔽技术生成显著性地图具有很高的性能，并且 10 个样本每类也可以显著提高显著性地图的精度。

Oct, 2020

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022