llm security | BriefGPT - AI 论文速递

关键词llm security

搜索结果 - 4

garak: 大型语言模型安全探测框架
介绍了一种名为 garak 的框架，可以发现和识别目标大型语言模型或对话系统中的漏洞，从而为漏洞在不同背景下的构成、LLM 部署的对齐和政策讨论等提供了有根据的讨论。
PDF18 days ago
LLM 越狱攻击与防御技术 -- 综合研究
该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进
PDF4 months ago
勤奋的鲍勃通过及时对抗调整反击越狱
我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制，将其作为用户提示的前缀来实施我们的防御策略，该方法在黑盒和白盒设置中表现有效，在几乎不影响操作效率的情况下，将高级攻击的成功率
PDF5 months ago
针对对齐语言模型的对抗攻击的基线防御
大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明，文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题：在这个领域中，哪些威胁模型实际上是有用的？基线防御技术在这个新领域中的表现如何？LLM 安
PDF10 months ago