Jun, 2024

通过 t-SNE 镜头探索逐层的对抗性鲁棒性

TL;DR我们提出了一种方法来评估图像分类人工神经网络的对抗鲁棒性,该方法利用 t-SNE 技术进行视觉检验,并且通过比较干净和扰动后的嵌入来确定网络中的弱点。通过对比两种不同的人类设计和神经进化设计的神经网络在 CIFAR-10 数据集上的分析,我们发现清晰和扰动表示之间的差异在特征提取层中就开始出现,并且影响后续的分类过程,这些结果得到了 t-SNE 图的视觉分析的支持。