Jan, 2024

预训练中通过对抗训练获得更好的表示:理论视角

TL;DR大规模深度学习中,预训练生成了下游任务的通用表示。现有文献经验性地观察到下游任务可以继承预训练模型的对抗鲁棒性,并提出了理论上的证明以揭示特征净化在预训练模型和下游任务之间的连接,在两层神经网络中展现出重要作用。通过对抗训练,每个隐藏节点趋向于选择一个或少量特征,而未经对抗训练的隐藏节点容易受到攻击。这一观察结果适用于监督预训练和对比学习,并且通过净化节点,清洁训练就足以实现下游任务的对抗鲁棒性。