关键词adversarial prompts
搜索结果 - 20
  • 谐波 LLMs 是可靠的
    PDF18 days ago
  • 使用信息瓶颈保护您的 LLMs
    PDFa month ago
  • JailbreakBench:大型语言模型越狱鲁棒性评估基准
    PDF2 months ago
  • ACLLinkPrompt:基于提示的语言模型的自然且通用的对抗攻击
    PDF2 months ago
  • 使用扩散模型进行受控训练数据生成
    PDF2 months ago
  • 通过伪装和重构在少量查询中解封大型语言模型的方法
    PDF3 months ago
  • 彩虹团队:多样对抗提示的开放生成
    PDF3 months ago
  • Groot:基于树状语义转换的生成式文本转图像模型的对抗性测试
    PDF3 months ago
  • 使用投影梯度下降攻击大规模语言模型
    PDF3 months ago
  • 大型语言模型上的从弱到强破解
    PDF4 months ago
  • ACL基于梯度的语言模型红队测试
    PDF4 months ago
  • 通过有针对性的攻击揭示稳定扩散中的漏洞
    PDF4 months ago
  • 分治攻击:利用 LLM 的威力绕过文本到图像生成模型的审查
    PDF5 months ago
  • 来自感染的人类反馈的通用越狱后门
    PDF6 months ago
  • 通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞
    PDF7 months ago
  • 通过强鲁棒对齐的 LLM 防御对齐破坏攻击
    PDF8 months ago
  • 针对对抗引导的 LLM 安全性认证
    PDF8 months ago
  • FLIRT: 反馈回路内上下文的红队作战
    PDF9 months ago
  • 现在做任何事情”:对大型语言模型中的自由研究提示进行特征化和评估
    PDF9 months ago
  • PromptBench:评估大型语言模型对对抗性提示的鲁棒性
    PDFa year ago
Prev
Next