关键词attack success rate
搜索结果 - 25
- EMNLPCoSafe:评估多轮对话中大型语言模型安全性的共指PDF7 days ago
- Ruby 协作:利用内存提升自动红队搜索的质量和多样性PDF15 days ago
- 通过双模式对抗启示破解视觉语言模型PDFa month ago
- R.A.C.E.:强健的对抗概念擦除用于安全的文本到图像扩散模型PDFa month ago
- CVPR物理后门:面向物理世界的基于温度的后门攻击PDF2 months ago
- AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型,用于破解开放和关闭的 LLMPDF3 months ago
- 基于硬标签的小样本黑盒对抗攻击PDF4 months ago
- 使用词替代密码破解专有大型语言模型PDF5 months ago
- InferAligner: 通过跨模型指导实现无害性的推理时间对齐PDF5 months ago
- EMNLP揭示大型语言模型中的隐含毒性PDF7 months ago
- 针对在线社交网络 (OSNs) 生成强健对抗性示例PDF8 months ago
- LoFT:用于提高对大型语言模型的对抗攻击的可转移性的本地代理微调PDF9 months ago
- BadSQA: 使用存在事件作为触发器的隐蔽后门攻击在非侵入性语音质量评估中PDF10 months ago
- 毒箭蛙:无训练数据情况下,低中毒率高攻击成功率的干净标签攻击PDF10 months ago
- 使用干净注释对目标检测的后门攻击PDFa year ago
- 如何选择可转移攻击的最佳盟友?PDFa year ago
- ICLR使代替模型更贝叶斯化可以增强对抗样本的可转移性PDFa year ago
- 使用强化学习的通用分布式基于决策的黑盒对抗攻击PDF2 years ago
- 利用反向分布对贝叶斯神经网络进行后门攻击PDF2 years ago
- ACL度量指导的对抗式句子生成PDF3 years ago
Prev