attack success rate | BriefGPT

关键词attack success rate

搜索结果 - 25

EMNLPCoSafe：评估多轮对话中大型语言模型安全性的共指
LLM 对话共指中的安全性漏洞研究，包括创建了一个包含 1,400 个问题的数据集，并在五种常用的开源 LLM 模型上进行了评估，结果表明在多轮共指安全攻击下，LLaMA2-Chat-7b 模型具有最高的攻击成功率为 56％，而 Mistr
PDF7 days ago
Ruby 协作：利用内存提升自动红队搜索的质量和多样性
Ruby Teaming 方法通过将内存维度作为其第三个维度来提高攻击的成功率和质量多样性，并生成具有更高攻击成功率和质量多样性的提示存档。
PDF15 days ago
通过双模式对抗启示破解视觉语言模型
利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。
PDFa month ago
R.A.C.E.：强健的对抗概念擦除用于安全的文本到图像扩散模型
为应对生成敏感内容的风险，本研究提出了一种新方法 Robust Adversarial Concept Erase (RACE)，通过增强概念抹除方法的鲁棒性，显著降低了对抗性文本嵌入的攻击成功率，成功减少了 “裸露” 概念攻击的 ASR
PDFa month ago
CVPR物理后门：面向物理世界的基于温度的后门攻击
该研究首次在物理和数字领域中研究与热红外物体检测相关的后门攻击的安全漏洞，并介绍了两种新型的后门攻击类型：物体影响攻击和范围影响攻击。通过对温度、尺寸、材料和隐藏等关键因素的全面分析，特别是温度的影响，揭示了后门攻击对热红外物体检测的有效性
PDF2 months ago
AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型，用于破解开放和关闭的 LLM
我们训练了一个生成模型，名为 AmpleGCG，它能够捕捉对抗性后缀的分布，使得在几秒钟内能够快速生成几百个对任何有害查询的后缀，并且能够以接近 100％的攻击成功率攻击多种语言模型。
PDF3 months ago
基于硬标签的小样本黑盒对抗攻击
提出了一种新的针对硬标签的黑盒攻击的优化方法，利用经预训练的替代模型指导优化过程，实验证明该方法在不同目标模型架构下显著提高了攻击的查询效率，攻击成功率较基准测试提高了约 5 倍，特别是在 100 和 250 个查询预算下。
PDF4 months ago
使用词替代密码破解专有大型语言模型
大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，
PDF5 months ago
InferAligner: 通过跨模型指导实现无害性的推理时间对齐
通过 InferAligner 方法，在训练领域特定模型以及多模态的大语言模型时，有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR)，同时保持了下游任务性能的基本不变。
PDF5 months ago
EMNLP揭示大型语言模型中的隐含毒性
大型语言模型 (LLMs) 的开放性和出色能力可能导致新的安全问题，在恶意利用中容易产生很难通过零样本提示检测出来的多样化的内隐性毒性输出。此外，我们提出了一种基于强化学习 (RL) 的攻击方法，进一步诱发 LLMs 中的内隐性毒性。例如，
PDF7 months ago
针对在线社交网络 (OSNs) 生成强健对抗性示例
提出了一种设计新框架以生成能够在在线社交网络传播中存活且具有强大攻击能力的对抗样本方法，并通过实验证明了该方法相对于现有方法在小失真约束下取得了 60% 以上的攻击成功率提升。
PDF8 months ago
LoFT：用于提高对大型语言模型的对抗攻击的可转移性的本地代理微调
本研究提出了局部微调（LoFT）方法，通过在词汇 - 语义邻近的有害查询中微调代理模型，减小代理模型与目标模型之间的差异，从而提高攻击的成功率。实验证明，局部微调代理模型能够提高攻击的传递性和攻击成功率。
PDF9 months ago
BadSQA: 使用存在事件作为触发器的隐蔽后门攻击在非侵入性语音质量评估中
提出了一种利用存在事件作为触发器，实现高度隐秘的 NISQA 任务背门攻击的新方法，并在四个基准数据集上进行实验，使用了两种最先进的 NISQA 模型，结果表明该背门攻击的平均攻击成功率高达 99％，中毒率仅为 3％。
PDF10 months ago
毒箭蛙：无训练数据情况下，低中毒率高攻击成功率的干净标签攻击
摘要：为了成功发动后门攻击，注入的数据需要正确标记；否则，即使基本的数据过滤器也很容易被检测到。因此，引入了无标签攻击的概念，这更加危险，因为它不需要更改注入数据的标签。我们提出了一种称为 “Poison Dart Frog” 的新型无标签
PDF10 months ago
使用干净注释对目标检测的后门攻击
通过对深度学习物体检测算法进行攻击，我们提出了一种简单而有效的后门攻击方法，特别针对物体消失攻击和物体生成攻击，实验证明我们的攻击方法在两个基准物体检测数据集上的攻击成功率超过 92％，而污染率仅为 5％。
PDFa year ago
如何选择可转移攻击的最佳盟友？
本文提出了一种基于失真度量方法的新的迁移性攻击成功率评估工具，并针对随机选择源模型可能导致的问题，提出了一种称为 FiT 的新型选择机制。实验结果表明，FiT 对于多种攻击类型的源模型选择具有高效性。
PDFa year ago
ICLR使代替模型更贝叶斯化可以增强对抗样本的可转移性
本文提出了使用贝叶斯模型对深度神经网络的对抗样本进行攻击的方法，并通过实验验证了其在改善模型迁移性方面的有效性以及攻击效果，攻击成功率平均提升约 19%。
PDFa year ago
使用强化学习的通用分布式基于决策的黑盒对抗攻击
研究在决策类攻击领域提出了像素级决策驱动的黑盒攻击算法，该算法使用增强学习算法找到对抗性扰动分布，经实验证明，与现有技术相比更具攻击成功率和可转移性。
PDF2 years ago
利用反向分布对贝叶斯神经网络进行后门攻击
本文提出了一种基于反向分布的新型后门攻击，能够成功地破坏贝叶斯神经网络的稳健性，并在多个基准数据集上证明了攻击成功率达到了 100%。
PDF2 years ago
ACL度量指导的对抗式句子生成
本文提出了一个 rewrite and rollback（R&R）框架，该框架通过优化批判分数来改进对抗样例的质量，结合流畅度、相似性和错分类度量，提高了对抗样例的质量，并在 5 个代表性数据集和 3 种分类器架构上进行了评估，攻击成功率分
PDF3 years ago