BriefGPT.xyz
大模型
Ask
alpha
关键词
llm safety
搜索结果 - 4
对中间隐藏状态的介绍解释 LLM 安全性:关于对齐和越狱的工作方式
本研究通过弱分类器解释大型语言模型的安全性,确认在预训练阶段 LLMs 学习道德概念而不是对齐,揭示了安全对其生成的恶意内容的抵御机制,以及越过安全限制的越狱行为对 LLM 安全的影响,从而提供了 LLM 安全的内在机制和减轻担忧的新视角。
PDF
25 days ago
SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述
系统回顾了用于评估和改进大型语言模型安全性的开放数据集,研究了 102 个数据集,并发现了可用数据集的使用模式和趋势,以及数据集覆盖的缺口和目前评估实践的局限性。
PDF
3 months ago
ArtPrompt: 基于 ASCII 艺术的针对对齐的 LLMs 的越狱攻击
大型语言模型(LLMs)的安全性对其使用至关重要。本论文提出了一种基于 ASCII 艺术的越狱攻击(ArtPrompt)并引入了综合评估 LLMs 在识别非仅通过语义解释的提示方面能力的基准 Vision-in-Text Challenge
→
PDF
4 months ago
修剪以增加对齐 LLMs 的防越狱能力,无需微调
通过修剪大型语言模型(LLM)的参数,可以显著提高其对 Jailbreaking 提示的抵抗力,而且不需要额外的训练,并且在标准基准测试中不会牺牲性能。此外,我们引入了一个由 225 个有害任务组成的精选数据集,并将其插入到 10 个不同的
→
PDF
5 months ago
Prev
Next