Jun, 2023

对抗性对齐:打破攻击强度和其对人类感知的相关性之间的权衡

TL;DR通过研究和比较多种神经网络,本文发现随着图片识别准确度的提高,对抗性攻击虽然越来越容易使模型改变分类决策,但同时攻击的特征也越来越远离与人类视觉识别相关的特征,即使人工以同样方式造成的影响。而通过神经协调器网络的训练,可以使神经网络更加接近人类视觉识别应有模式,从而提高对抗性攻击下的鲁棒性。