ADDMU: 利用数据和模型不确定性估计检测远端边界对抗样本

EMNLPOct, 2022

ADDMU: 利用数据和模型不确定性估计检测远端边界对抗样本

ADDMU: Detection of Far-Boundary Adversarial Examples with Data and Model Uncertainty Estimation

Fan Yin, Yao Li, Cho-Jui Hsieh, Kai-Wei Chang

TL;DR提出了一种新的技术 ADDMU 来检测自然语言处理中的对抗性样本，结合两种不确定性估计的方法可以更好的识别对抗性例子并提高模型的鲁棒性。

Abstract

adversarial examples detection (AED) is a crucial defense technique against adversarial attacks and has drawn increasing attention from the Natural Language Processing (NLP) community. Despite the surge of new AED methods, our studies show that existing methods heavily rely on a shortc

adversarial examples detection natural language processing far boundary addmu model's robustness

发现论文，激发创造

UADB: 无监督异常检测增强器

本文提出一种通用的 UAD Booster 框架，利用神经网络作为模型辅助器并考虑模型间差异自动校正的方法，提高异构 UAD 模型的适应性和检测效果。

Jun, 2023

ADBA：黑盒对抗攻击的近似决策边界方法

该论文介绍了一种使用近似决策边界（ADB）的新方法，通过快速识别适当的决策边界来有效且准确地比较扰动方向，进一步发展出 ADB 算法。ADB 算法仅平均需要四个查询来区分任意一对扰动方向，具有非常高的查询效率，在六个知名图像分类器的广泛实验证明了 ADBA 和 ADBA-md 优于多个最先进的黑盒攻击方法。

Jun, 2024

多标注下的宝藏：一种考虑不确定性的边缘检测器

本文提出了一种基于不确定性的边缘检测器，通过学习注释之间的不确定性，使用自适应加权损失将高不确定像素的学习重点放在边缘检测上，具有在多个边缘检测基准中稳定的优越性能。

Mar, 2023

对于对抗样本检测中不确定度度量的理解

研究不同类型的不确定性测量方法及其在检测对抗性例子中的应用，揭示了 MC dropout 方法的不足，提出了利用概率模型集成来提高不确定性估计质量的建议。实验证明不同不确定性测量方法在 MNIST 和狗猫分类数据集上的不同效果。

Mar, 2018

AED-PADA: 通过主要对抗领域适应性提高对抗样本检测的泛化能力

通过主对抗领域适应的对抗性样例检测方法（AED-PADA），针对现有检测方法在广泛应用中存在的泛化性能较差的问题提出了解决方案，通过识别主对抗领域（PAD）并利用多源领域适应实现对对抗性样例的检测，实验表明我们的方法在具有极小幅度干扰的挑战性场景中具备突出的泛化能力。

Apr, 2024

不确定性量化的对抗性攻击

机器学习模型容易受到对抗性示例的欺骗，对抗攻击针对的是不确定性量化技术，攻击的目标是操纵不确定性估计，实验结果表明这种攻击比诱导错误分类的攻击更有效。

Sep, 2023

通过鲁棒密度估计进行文本分类中词语对抗样本的检测：基准和基础线

本文旨在探索检测针对 NLP 模型的对抗攻击的方法，提出基于密度估计的 Competitive Baseline，并提供包括 4 个数据集上 4 种流行攻击方法和 4 种模型在内的数据集，以便进一步研究。

Mar, 2022

DMAD：面向现实世界异常检测的双重内存库

通过使用统一的模型，提出了一种名为 Dual Memory bank enhanced representation learning for Anomaly Detection (DMAD) 的新框架，该框架处理了无监督和半监督场景，通过双重存储器来计算正常和异常模式之间的特征距离和特征注意力，从而构建了用于异常分数学习的增强表示。通过在 MVTec-AD 和 VisA 数据集上的评估，结果表明 DMAD 超越了当前最先进的方法，突显了 DMAD 在处理复杂的实际异常检测场景中的能力。

Mar, 2024

基于误差驱动的不确定性感知训练

神经网络误差驱动不确定性感知训练（EUAT）技术提供了更高质量的不确定性估计，优于现有的不确定性估计方法，并能在构建可信的二分类器和分布数据转换时产生更可靠的结果。

May, 2024

检测超过阈值的不确定性（DUET）：对抗贴片本地化器

本研究提出了一种基于不确定性的对抗性贴片定位器，通过采用 DUET 算法来量化预测不确定性以查明对抗性贴片所在的图像区域，以允许后处理补丁避免或补丁重建，这对于自动驾驶汽车和医学成像等安全敏感应用至关重要。该研究还表明，在贝叶斯神经网络的不同层中采用等面积高斯先验，有助于在机器学习模型中实现更好的 patch localization 和 model generalization。

Mar, 2023