adversarial perturbation attacks | BriefGPT

关键词adversarial perturbation attacks

搜索结果 - 4

谁写的？零样本长文本生成文本检测的关键是 GECScore
提出一种基于语法错误修正分数（GECScore）计算的黑盒零样本检测方法，通过区分人工编写和大型语言模型生成的文本，在零样本和有监督方法方面显著优于现有技术，获得平均 AUROC 为 98.7％的结果，并对近义词和对抗扰动攻击具有很强的鲁棒
PDF2 months ago
XGBoost 对称防御抵御对抗扰动攻击
对于树状集成分类器和梯度提升决策树（GBDT）是否能够利用对称性来抵御对抗扰动攻击进行了研究，并首次证明了 GBDT 对称性的缺失。通过使用特征反演和水平翻转对称性，我们在零知识对手和完全知识对手的威胁模型下对九个数据集进行了 GBDT 对
PDFa year ago
ICCVT$_k$ML-AP: 面向 Top-$k$ 多标签学习的对抗攻击
本文开发新的方法，针对基于 TkML-AP 的图像注释系统，创建了用于攻击的对抗扰动，并基于新型损失函数，明确考虑 top-k 排名关系，对 PASCAL VOC 和 MS COCO 等大规模基准数据集进行实验评估，展示了我们方法在减少最先
PDF3 years ago
当可解释性遇上对抗学习：使用 SHAP 签名检测对抗样本
本文介绍了一种新的检测方法，该方法使用计算深度神经网络分类器的内部层的 Shapley 加性解释（SHAP）值来区分正常和对抗输入。通过针对流行的 CIFAR-10 和 MNIST 数据集构建数据集，训练基于神经网络的检测器去区分正常和对抗
PDF5 years ago