关键词jailbreaking attacks
搜索结果 - 17
  • 通过模糊输入对大型语言模型进行越狱
    PDF13 days ago
  • 通过 Silent Tokens 增强对大型语言模型的越狱攻击
    PDFa month ago
  • 大型语言模型基于优化的越狱技术的改进技术
    PDFa month ago
  • 引入视觉模态的高效 LLM 越狱
    PDFa month ago
  • WordGame:通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱
    PDFa month ago
  • 基于逻辑回归的令牌级操作的破解方法:Lockpicking LLMs
    PDFa month ago
  • 通过自适应的稠密到稀疏约束优化实现高效 LLM 越狱
    PDF2 months ago
  • 抑制拒绝:通过破解抑制性拒绝来破解 LLM
    PDF2 months ago
  • AdvPrompter: LLMs 的快速自适应敌对提示
    PDF2 months ago
  • Eraser: 大语言模型中逆向防御通过遗忘有害知识
    PDF3 months ago
  • 通过简单自适应攻击解禁领先的安全对齐 LLMs
    PDF3 months ago
  • 通过反翻译来抵御 LLMs 的越狱攻击
    PDF4 months ago
  • 通过语义平滑对抗越狱攻击的大型语言模型防御
    PDF4 months ago
  • 利用多轮互动增强上下文的越狱攻击
    PDF5 months ago
  • 针对多模式大型语言模型的越狱攻击
    PDF5 months ago
  • 通过目标优先级保护大型语言模型抵御越狱攻击
    PDF8 months ago
  • SmoothLLM: 对抗越狱攻击的大型语言模型防御
    PDF9 months ago
Prev
Next