关键词defense
搜索结果 - 61
  • Genshin: 大规模语言模型下的自然语言处理通用护盾
    PDF18 days ago
  • 预训练编码器中蒸馏在缓解后门中的有效性
    PDF3 months ago
  • 传播通用扰动攻击大型语言模型防护栏
    PDF4 months ago
  • SALAD-Bench: 大型语言模型的分层与综合安全评估基准
    PDF4 months ago
  • 多模态大型语言模型在图像和文本上的安全性
    PDF4 months ago
  • BackdoorBench: 一个全面的后门学习基准和分析
    PDF5 months ago
  • 识别和减轻 LLM 集成应用程序中的漏洞
    PDF7 months ago
  • Purify++: 用先进扩散模型和随机性控制改进扩散净化
    PDF8 months ago
  • 通过随机化潜在表示欺骗文本欺骗者
    PDF8 months ago
  • 理解随机特征防御对基于查询的对抗攻击的鲁棒性
    PDF9 months ago
  • 抵御预训练语言模型作为小样本学习器的后门攻击
    PDF9 months ago
  • 一份包含恶意内容的用于 LLMs 的中文 Prompt 攻击数据集
    PDF9 months ago
  • 通过强鲁棒对齐的 LLM 防御对齐破坏攻击
    PDF9 months ago
  • BaDExpert:提取后门功能以准确检测后门输入
    PDF10 months ago
  • XGBoost 对称防御抵御对抗扰动攻击
    PDF10 months ago
  • 重新思考敌对政策:多智能体 RL 中的广义攻击公式与可证明防御
    PDFa year ago
  • 针对监视的物理对抗攻击:一项调查
    PDFa year ago
  • ICML防御性机器学习:用对抗性混淆防御架构侧信道
    PDFa year ago
  • 针对时间序列预测的攻击
    PDFa year ago
  • AAAI探究自我训练如何容忍数据背门毒化
    PDFa year ago
Prev