jailbreak | BriefGPT - AI 论文速递

关键词jailbreak

搜索结果 - 11

越狱悖论: LLMs 的致命弱点
我们介绍了两个关于基础模型越狱的悖论：首先，构建完美的越狱分类器是不可能的；其次，一个较弱的模型不能一致地检测到一个更强的（在帕累托优势意义上）模型是否越狱。我们提供了这些悖论的形式证明，并通过 Llama 和 GPT4-o 的短期案例研究
PDF16 days ago
未对齐” 不等于 “恶意”: 小心大型语言模型越狱的幻觉
我们提出了一种名为 BabyBLUE 的针对大型语言模型 (Large Language Models, LLMs) 的破解漏洞和幻觉评估的基准检测方案，该方案引入了专门的验证框架和数据集以提高现有的破解漏洞评估，并评估破解后的 LLM 输
PDF17 days ago
对中间隐藏状态的介绍解释 LLM 安全性：关于对齐和越狱的工作方式
本研究通过弱分类器解释大型语言模型的安全性，确认在预训练阶段 LLMs 学习道德概念而不是对齐，揭示了安全对其生成的恶意内容的抵御机制，以及越过安全限制的越狱行为对 LLM 安全的影响，从而提供了 LLM 安全的内在机制和减轻担忧的新视角。
PDF25 days ago
重新思考以评估语言模型破解
提出了三个指标来评估语言模型的越狱，分别是安全违规、信息性和相对真实性，并展示了这些指标与不同恶意用户的目标之间的相关性，通过预处理响应扩展了自然语言生成评估方法来计算这些指标，对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评
PDF3 months ago
图像是对齐的弱点：利用视觉漏洞对跨模态大型语言模型进行越狱
研究了多模态大型语言模型（MLLMs）的无害对齐问题，通过对代表性 MLLMs 的无害性能进行系统的实证分析，揭示了图像输入对 MLLMs 的对准易受攻击的弱点。在此基础上，提出了一种名为 HADES 的新型越狱方法，利用精心制作的图像隐藏
PDF4 months ago
跳出规则：多轮对话中大型语言模型的安全漏洞
人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。
PDF4 months ago
大型语言模型中的系统消息对越狱是否真的重要？
通过对大型语言模型的稳定版本进行实验，我们发现不同的系统消息对于防范恶意提问的破解具有不同的抵抗力，针对系统消息与破解的关系，我们提出了系统消息进化算法 (SMEA)，通过该算法，我们获得了抵抗破解的系统消息，其抵抗力可高达 98.9%，这
PDF4 months ago
使用词替代密码破解专有大型语言模型
大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，
PDF5 months ago
勤奋的鲍勃通过及时对抗调整反击越狱
我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制，将其作为用户提示的前缀来实施我们的防御策略，该方法在黑盒和白盒设置中表现有效，在几乎不影响操作效率的情况下，将高级攻击的成功率
PDF5 months ago
通过自对抗攻击和系统提示实施对 GPT-4V 的越狱
通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP（自我对抗攻击系统提示）方法进行监狱破解，本研究发现了 Multimodal Large Language Models（MLLMs）的潜在安全风险并提出了相应的防御方法，以显著降
PDF8 months ago
自我欺骗：大型语言模型语义防火墙的逆渗透
通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。
PDFa year ago