Sep, 2023

调查对抗扰动中隐藏的可识别人类特征

TL;DR研究表明,神经网络在各种机器学习任务中表现出色,但仍然容易受到对抗性扰动的攻击。这篇论文探讨了对抗性攻击中人可识别特征的识别,并揭示了在无目标攻击和有目标攻击中出现的两种不同效应。通过提取像素级注释的特征,论文证明了这些特征能够破坏目标模型,并指出不同攻击算法在多个模型上平均后的扰动具有显著的相似性。该研究为更深入地理解对抗性攻击的机制及神经网络的防御策略提供了洞察。