llm safety | BriefGPT - AI 论文速递

关键词llm safety

搜索结果 - 4

对中间隐藏状态的介绍解释 LLM 安全性：关于对齐和越狱的工作方式
本研究通过弱分类器解释大型语言模型的安全性，确认在预训练阶段 LLMs 学习道德概念而不是对齐，揭示了安全对其生成的恶意内容的抵御机制，以及越过安全限制的越狱行为对 LLM 安全的影响，从而提供了 LLM 安全的内在机制和减轻担忧的新视角。
PDF25 days ago
SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述
系统回顾了用于评估和改进大型语言模型安全性的开放数据集，研究了 102 个数据集，并发现了可用数据集的使用模式和趋势，以及数据集覆盖的缺口和目前评估实践的局限性。
PDF3 months ago
ArtPrompt: 基于 ASCII 艺术的针对对齐的 LLMs 的越狱攻击
大型语言模型（LLMs）的安全性对其使用至关重要。本论文提出了一种基于 ASCII 艺术的越狱攻击（ArtPrompt）并引入了综合评估 LLMs 在识别非仅通过语义解释的提示方面能力的基准 Vision-in-Text Challenge
PDF4 months ago
修剪以增加对齐 LLMs 的防越狱能力，无需微调
通过修剪大型语言模型（LLM）的参数，可以显著提高其对 Jailbreaking 提示的抵抗力，而且不需要额外的训练，并且在标准基准测试中不会牺牲性能。此外，我们引入了一个由 225 个有害任务组成的精选数据集，并将其插入到 10 个不同的
PDF5 months ago