Feb, 2024

MPAT: 构建抵抗文本对抗攻击的鲁棒深度神经网络

TL;DR本文提出了一种基于恶意扰动的恶意对抗训练方法 (MPAT),用于构建对文本对抗攻击具有鲁棒性的深度神经网络。该方法通过生成恶意样本来替代原始输入进行模型训练,并采用新的训练目标函数以实现在不降低原始任务性能的情况下达到防御目标。实验结果表明,相比于先前的防御方法,我们的方法在对抗恶意攻击时更加有效,同时保持或进一步提高原始任务的性能。