基于对抗攻击风险选择模型

Jan, 2023

Selecting Models based on the Risk of Damage Caused by Adversarial Attacks

Jona Klemenc, Holger Trittenbach

TL;DR本研究提出了一种基于统计学建模的评估方法，可以量化敌对攻击导致的危害风险，并演示了该方法的应用结果胜过传统的度量方法。

Abstract

Regulation, legal liabilities, and societal concerns challenge the adoption of ai in safety and security-critical applications. One of the

ai safety security adversarial attacks model predictions

发现论文，激发创造

朝着更实用的人工智能安全威胁模型

最近的研究发现了人工智能安全领域研究与实践之间存在的差距：学术界研究的威胁并不总是反映了人工智能的实际使用和安全风险。我们的研究是为了描述这种差异的完整程度，并将六种最常研究的人工智能安全攻击威胁模型与实际使用中的人工智能进行匹配。我们发现所有的现有威胁模型确实是适用的，但也存在重大差异：研究常常太宽容于攻击者，并假设实际环境中很少可用的信息。因此，我们的论文呼吁在人工智能安全领域研究更多实用的威胁模型。

Nov, 2023

保护机器学习模型免受对抗样本的安全隐患

本文研究机器学习中的安全和隐私领域，重点探究性会员推断攻击是否会受到对抗性的防御方法的影响，并通过实验验证证明对抗性的防御方法可以增加目标模型的风险。

May, 2019

针对网络入侵检测系统的逼真对抗攻击建模

通过对网络入侵检测系统进行基于机器学习的威胁模拟，发现现有文献中的威胁模型不适用于实际的网络安全情景，因此，有必要加强现有防御系统以及探索更加真实和有效的对抗方式。

Jun, 2021

无需强鲁棒机器学习来管理对抗攻击风险

本文综述了关于机器学习鲁棒性的现状，并探讨了对抗性攻击的实际威胁以及如何管理这些风险，指出许多情况下不需要在模型的准确性和鲁棒性之间做出抉择。

Jun, 2023

分析开放存储库中 AI 视觉模型在对抗攻击下的质量属性

我们提出了一个集成的过程，用于验证 AI 模型的准确性、评估其鲁棒性以及比较解释效用，并展示了六种计算机视觉模型在不同扰动和 XAI 方法下的评估结果。

Jan, 2024

对抗性风险与评估弱攻击的危害

本文研究了针对对抗性样本的最新的防御方法和评估对抗性鲁棒性的方法，提出了 “对抗风险” 作为实现模型鲁棒性的目标，并将常用的攻击和评估度量框架化为真正的对抗风险的可行替代目标，指出模型可能会优化该替代目标而不是对抗风险，发展了识别混淆模型和设计透明模型的工具和启发式方法，并通过重新调整梯度自由优化技术为对抗攻击来证明这在实践中是一个重大问题，这被用于将几个最近提出的防御的准确性降低到接近零。我们希望我们的公式和结果能够帮助研究者开发更强大的防御措施。

Feb, 2018

自动对抗性发现用于安全分类器

安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Jun, 2024

高风险可靠性的对抗训练

通过对抗训练，可以增加高风险环境下 AI 安全性，本文以安全语言生成任务为测试，使用一系列对抗训练技术来寻找并消除分类器中的错误，提高输出的鲁棒性和可靠性。

May, 2022

极端风险的模型评估

建立通用人工智能系统的当前方法倾向于产生既有益又有害的能力，进一步的人工智能发展可能会导致极端风险的能力，本文解释了为什么模型评估对于解决极端风险至关重要，开发人员必须能够识别危险的能力（通过 “危险能力评估”）以及模型应用其能力进行伤害的倾向（通过 “对齐评估”），这些评估对于使政策制定者和其他利益相关者得到及时警告以及做出关于模型培训、部署和安全的负责任决策变得至关重要。

May, 2023

关于（统计）检测对抗样本的研究

本文研究如何检测机器学习中的对抗性样本，提出使用统计检验和模型增强的方法来识别对抗性样本，并参照多个数据集和对抗样本制作方法进行实验，结果表明统计学特性对于检测对抗性样本至关重要。

Feb, 2017