基于对抗攻击风险选择模型
最近的研究发现了人工智能安全领域研究与实践之间存在的差距:学术界研究的威胁并不总是反映了人工智能的实际使用和安全风险。我们的研究是为了描述这种差异的完整程度,并将六种最常研究的人工智能安全攻击威胁模型与实际使用中的人工智能进行匹配。我们发现所有的现有威胁模型确实是适用的,但也存在重大差异:研究常常太宽容于攻击者,并假设实际环境中很少可用的信息。因此,我们的论文呼吁在人工智能安全领域研究更多实用的威胁模型。
Nov, 2023
本文研究机器学习中的安全和隐私领域,重点探究性会员推断攻击是否会受到对抗性的防御方法的影响,并通过实验验证证明对抗性的防御方法可以增加目标模型的风险。
May, 2019
通过对网络入侵检测系统进行基于机器学习的威胁模拟,发现现有文献中的威胁模型不适用于实际的网络安全情景,因此,有必要加强现有防御系统以及探索更加真实和有效的对抗方式。
Jun, 2021
我们提出了一个集成的过程,用于验证 AI 模型的准确性、评估其鲁棒性以及比较解释效用,并展示了六种计算机视觉模型在不同扰动和 XAI 方法下的评估结果。
Jan, 2024
本文研究了针对对抗性样本的最新的防御方法和评估对抗性鲁棒性的方法,提出了 “对抗风险” 作为实现模型鲁棒性的目标,并将常用的攻击和评估度量框架化为真正的对抗风险的可行替代目标,指出模型可能会优化该替代目标而不是对抗风险,发展了识别混淆模型和设计透明模型的工具和启发式方法,并通过重新调整梯度自由优化技术为对抗攻击来证明这在实践中是一个重大问题,这被用于将几个最近提出的防御的准确性降低到接近零。我们希望我们的公式和结果能够帮助研究者开发更强大的防御措施。
Feb, 2018
安全分类器和对抗攻击是在线论坛(如社交媒体和聊天机器人)中减少毒性的关键,然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法,以在以前未见的伤害维度上寻找新的攻击方法,以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展(1)对抗成功性:攻击是否欺骗了分类器?(2)维度多样性:攻击是否代表了以前未见的伤害类型?通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估,发现它们存在局限性:词汇扰动攻击无法欺骗分类器,而基于提示的 LLM 攻击具有更高的对抗成功性,但缺乏维度多样性。即使是我们最有效的基于提示的方法,仍然只在攻击的以前未见的伤害维度上成功了 5%的时间。自动发现攻击的新的有害维度至关重要,并且在这个新任务上未来研究有巨大的潜力。
Jun, 2024
建立通用人工智能系统的当前方法倾向于产生既有益又有害的能力,进一步的人工智能发展可能会导致极端风险的能力,本文解释了为什么模型评估对于解决极端风险至关重要,开发人员必须能够识别危险的能力(通过 “危险能力评估”)以及模型应用其能力进行伤害的倾向(通过 “对齐评估”),这些评估对于使政策制定者和其他利益相关者得到及时警告以及做出关于模型培训、部署和安全的负责任决策变得至关重要。
May, 2023
本文研究如何检测机器学习中的对抗性样本,提出使用统计检验和模型增强的方法来识别对抗性样本,并参照多个数据集和对抗样本制作方法进行实验,结果表明统计学特性对于检测对抗性样本至关重要。
Feb, 2017