对手可以滥用安全模型的组合

Jun, 2024

Adversaries Can Misuse Combinations of Safe Models

Erik Jones, Anca Dragan, Jacob Steinhardt

TL;DR开发者试图评估人工智能系统在发布之前是否会被对手滥用，本研究表明，仅对单个模型进行滥用测试是不充分的，对手可以即使每个单独的模型都是安全的情况下，组合模型进行滥用。研究了两种分解方法：手动分解和自动分解，结果显示对手可以使用模型组合更高频率地创建容易受攻击的代码、不正当图像、用于黑客攻击的 Python 脚本和操纵性推文，推荐加强红队测试以避免单独模型滥用的可能性。

Abstract

Developers try to evaluate whether an ai system can be misused by adversaries before releasing it; for example, they might test whether a model enables cyberoffense, user manipulation, or bioterrorism. In this wo

ai system misuse adversaries combinations of models decomposition methods

发现论文，激发创造

自毁模型：增加基础模型有害双重用途的成本

该研究提出了一种名为「任务屏蔽」的新的训练范式，使用元学习和对抗学习的技术训练出一种自毁机制的基础模型来预防对有害任务的适应，降低其潜在风险。

Nov, 2022

深度学习系统的模型重用攻击

本文展示了恶意原始模型对机器学习系统的安全性带来的巨大威胁，并提供了有效、难以检测和易于实现的攻击方法，同时探讨了相应的潜在对策，给出了若干有前途的研究方向。

Dec, 2018

基于对抗攻击风险选择模型

本研究提出了一种基于统计学建模的评估方法，可以量化敌对攻击导致的危害风险，并演示了该方法的应用结果胜过传统的度量方法。

Jan, 2023

人脸识别模型的模拟对抗测试

通过模拟器进行对抗测试，寻找机器学习模型的弱点并提供一种方法来发现这些弱点。该方法应用于人脸识别模型中，显示在常规的验证数据集之外，可以发现真实数据集训练的模型存在的弱点，包括对抗性合成人脸等。

Jun, 2021

朝着更实用的人工智能安全威胁模型

最近的研究发现了人工智能安全领域研究与实践之间存在的差距：学术界研究的威胁并不总是反映了人工智能的实际使用和安全风险。我们的研究是为了描述这种差异的完整程度，并将六种最常研究的人工智能安全攻击威胁模型与实际使用中的人工智能进行匹配。我们发现所有的现有威胁模型确实是适用的，但也存在重大差异：研究常常太宽容于攻击者，并假设实际环境中很少可用的信息。因此，我们的论文呼吁在人工智能安全领域研究更多实用的威胁模型。

Nov, 2023

安全” 人工智能相应中的信息泄露导致虚假的安全感

大型语言模型存在越狱的漏洞，目前的防御机制不足以确保模型的安全性，我们引入信息理论威胁模型并提出了一种防御机制，以确保模型的安全性，并揭示了安全 - 效用的权衡关系。

Jul, 2024

AI 控制：尽管存在故意违抗改善安全

通过开发和评估能够抵御恶意破坏的安全技术（协议），我们研究了使用大型语言模型（LLMs）解决编程问题的场景，并且改进了现有的基准方法。

Dec, 2023

自动对抗性发现用于安全分类器

安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Jun, 2024

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

深度学习模型中的安全与隐私挑战

深度学习模型在多个领域取得了巨大的成功，但研究发现这些模型存在各种攻击，会危及模型的安全性和数据隐私，特别是模型抽取攻击、模型反转攻击和对抗攻击。这篇论文研究了这些攻击以及它们对深度学习模型的影响。

Nov, 2023