defence mechanism | BriefGPT

关键词defence mechanism

搜索结果 - 5

表征加噪有效地预防语言模型的有害微调
我们提出了一种名为 Representation Noising (RepNoise) 的防御机制，它能在攻击者具有权重且防御者无法控制的情况下，有效地消除有害表示的信息，从而使恶意微调变得困难，并能在不同的有害子集上泛化，同时不降低大型语
PDFa month ago
对抗训练的高维模型：几何与权衡
在高维度背景下，研究基于边界的线性分类器中的对抗性训练，提出了一个可以研究数据和对手几何结构相互作用的可行数学模型，精确描述了足够统计量的敌对经验风险最小化，揭示了存在可以在不损失准确性的情况下进行防御的方向，并且证明了防御非鲁棒特征在训练
PDF5 months ago
不冒犯，Bert—— 我只侮辱人类！对毒性检测神经网络的句子层次攻击
我们介绍了一种简单而高效的句子级攻击黑盒毒性检测模型的方法。我们通过在仇恨信息的末尾添加几个正面词语或句子，能够改变神经网络的预测结果，并通过毒性检测系统检查。我们还描述了对抗该攻击的防御机制并讨论了其限制。
PDF9 months ago
EMNLP针对 NLP 模型后门攻击的鲁棒性感知扰动防御 (RAP)
本文提出了一种基于鲁棒性感知扰动的在线防御机制，可以有效对抗自然语言处理模型的后门攻击，并在情感分析和毒性检测任务中取得更好的防御效果和更低的计算成本。
PDF3 years ago
通过异常检测在污染攻击中检测对抗训练样例
本文提出一种防御机制来弥补机器学习中数据毒化的影响，该机制基于离群值检测来检测所谓的最优攻击策略生成的对抗样本与真实样本之间的差异。
PDF6 years ago