BriefGPT.xyz
大模型
Ask
alpha
关键词
llm security
搜索结果 - 4
garak: 大型语言模型安全探测框架
介绍了一种名为 garak 的框架,可以发现和识别目标大型语言模型或对话系统中的漏洞,从而为漏洞在不同背景下的构成、LLM 部署的对齐和政策讨论等提供了有根据的讨论。
PDF
18 days ago
LLM 越狱攻击与防御技术 -- 综合研究
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进
→
PDF
4 months ago
勤奋的鲍勃通过及时对抗调整反击越狱
我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制,将其作为用户提示的前缀来实施我们的防御策略,该方法在黑盒和白盒设置中表现有效,在几乎不影响操作效率的情况下,将高级攻击的成功率
→
PDF
5 months ago
针对对齐语言模型的对抗攻击的基线防御
大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明,文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题:在这个领域中,哪些威胁模型实际上是有用的?基线防御技术在这个新领域中的表现如何?LLM 安
→
PDF
10 months ago
Prev
Next