safety mechanisms | BriefGPT

关键词safety mechanisms

搜索结果 - 11

MOSSBench：你的多模态语言模型对安全查询过于敏感吗？
通过研究发现，高级多模态大型语言模型（MLLMs）和人类一样容易出现认知失真，即在不同情境下对特定刺激作出夸大的反应。在研究中，我们识别出三类触发现有 MLLMs 过度敏感的刺激：夸大风险、否定伤害和违反直觉的解释。通过提出多模态过敏性基准
PDF10 days ago
大规模语言模型的全面高效后编程安全对齐
我们提出了一种后安全对齐（PSA）方法，以解决目前大型语言模型（LLMs）中脆弱和不平衡的安全机制问题，并且能够提升安全性、减轻过度安全性，并在保持实用性的同时无缝集成到目标 LLM 中。实验表明，这种方法不仅实现了比基准方法更全面和高效的
PDFa month ago
闭眼，安全已开启：通过图像到文本转换保护多模态 LLMs
通过 ECSO (Eyes Closed, Safety On) 方法，利用 MLLMs 的内在安全意识，将不安全的图像自适应地转换为文本以激活 MLLMs 中预先对齐的 LLMs 的内在安全机制，从而显著提高模型的安全性，并能用作数据引擎
PDF4 months ago
跳出规则：多轮对话中大型语言模型的安全漏洞
人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。
PDF4 months ago
解除 GPT4 的过滤器
本文介绍了一种将经过强化学习与人类反馈（RLHF）训练的 GPT4 模型，操作以回到未经 RLHF 处理的行为，从而有效地去除模型在 RLHF 期间学习到的所有安全机制，特别是当 GPT4 在没有 RLHF 的情况下运行时，它失去了所有的抑
PDF5 months ago
通过修剪和低秩修改评估安全对齐的脆弱性
利用剪枝和低秩修改探索大型语言模型的安全与稳健性，发现关键区域的剔除威胁了安全性但对效用影响不大，同时指出即使限制对关键区域的修改，大型语言模型仍然容易受到低成本的微调攻击，强调了对大型语言模型更强健的安全策略的迫切需求。
PDF5 months ago
LLM 的两面：杰基尔博士与海德先生
利用对抗性角色，绕过 ChatGPT 和 Bard 聊天机器人的安全机制，使用大型语言模型结合聊天助手应用的技术，模仿提供禁止回答的信息，实现获取未经授权、非法或有害信息的攻击。
PDF7 months ago
敲响警钟！扩散模型的概念去除方法的可靠性如何？
通过提出一个新颖的概念检索算法，我们的研究旨在调查用于评估 T2I 扩散模型的安全机制，并验证 Ring-A-Bell 方法的可靠性。通过操纵安全提示基准，我们证明 Ring-A-Bell 可以将原本被认为是安全的提示转化为规避现有安全机制
PDF9 months ago
文本图像模型的安全过滤器绕过方法
我们成功地设计并展示了对 Midjourney 的首个 prompt 攻击，从而生成大量逼真的不适宜工作场所的图像，揭示了此类攻击的基本原理，并建议通过策略性地替换可疑提示中的高风险部分来规避闭源安全措施。我们的新框架 SurrogateP
PDF9 months ago
Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)
利用 Prompting4Debugging (P4D) 工具，我们发现了 Stable Diffusion（SD）模型中的新脆弱性，显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制，包括概念删除、负面提示和安全指导
PDF10 months ago
视觉对抗样本破解大型语言模型
本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险，指出了高维视觉输入空间本质上是对抗性攻击的理想介质，以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制
PDFa year ago