Jun, 2024
通过t-SNE镜头探索逐层的对抗性鲁棒性
Exploring Layerwise Adversarial Robustness Through the Lens of t-SNE
TL;DR我们提出了一种方法来评估图像分类人工神经网络的对抗鲁棒性,该方法利用t-SNE技术进行视觉检验,并且通过比较干净和扰动后的嵌入来确定网络中的弱点。通过对比两种不同的人类设计和神经进化设计的神经网络在CIFAR-10数据集上的分析,我们发现清晰和扰动表示之间的差异在特征提取层中就开始出现,并且影响后续的分类过程,这些结果得到了t-SNE图的视觉分析的支持。