safety alignment | BriefGPT

关键词safety alignment

搜索结果 - 28

跨模态安全对齐
人工通用智能（AGI）越来越多地融入到人类生活的各个方面，确保这些系统的安全和道德一致性至关重要。过去的研究主要关注单模态威胁，这可能不足以应对交叉模态相互作用的综合和复杂性。我们提出了一个名为 “安全输入但不安全输出（SIUO）” 的新型
PDF13 days ago
PKU-SafeRLHF: Llama 家族模型的安全对齐偏好数据集
本文介绍了 PKU-SafeRLHF 数据集，旨在促进大型语言模型（LLMs）中的安全任务对齐研究。数据集包含 44.6k 个精细设定的提示和 265k 个问题 - 答案对，涵盖了 19 个伤害类别和从轻微到严重的三个严重程度级别，答案由
PDF14 days ago
模型合并与安全对齐：一枚坏模型败坏一群模型
将多个专家语言模型合并成单一多功能模型的成本效益技术中，当前方法经常忽视了合并过程中安全对齐的重要性，导致模型高度不对齐。本研究调查了模型合并对对齐的影响，评估了几种常见的模型合并技术，证明现有方法不仅传递了领域专业知识，还传播了错对齐。我
PDF14 days ago
在大型语言模型中寻找安全神经元
我们通过从机理解释的角度探索安全对齐的内在机制，重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元，并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明：（1）安全神经元是稀疏而有
PDF14 days ago
ChatBug：由聊天模板引起的对齐 LLM 的常见漏洞
大型语言模型（LLMs）在遵循用户指令和进行对话方面具有重要意义。本文研究了聊天模板对 LLMs 安全对齐的影响，并发现了一个名为 ChatBug 的潜在漏洞。通过两种攻击方式，我们证明恶意用户可以利用 ChatBug 漏洞有效引导 LLM
PDF17 days ago
大型语言模型联邦指导调优中涌现的安全攻击与防御
我们首次揭示了 FedIT 中安全对齐的漏洞，提出了一种简单、隐蔽但有效的安全攻击方法，并进一步提出了一种事后防御方法。实验证明，我们的安全攻击方法可以显著破坏 LLM 的安全对齐，而现有的防御方法无法有效防御，而我们的安全防御方法可以显著
PDF19 days ago
安全对齐不应仅限于几个标记
当前大型语言模型（LLM）存在的安全对齐问题容易受到攻击，我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在，并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLM
PDF24 days ago
对中间隐藏状态的介绍解释 LLM 安全性：关于对齐和越狱的工作方式
本研究通过弱分类器解释大型语言模型的安全性，确认在预训练阶段 LLMs 学习道德概念而不是对齐，揭示了安全对其生成的恶意内容的抵御机制，以及越过安全限制的越狱行为对 LLM 安全的影响，从而提供了 LLM 安全的内在机制和减轻担忧的新视角。
PDF25 days ago
OR-Bench：大型语言模型的拒绝过度基准
通过自动生成大规模的看似有害的提示，该研究提出了 OR-Bench，首个大规模的拒绝基准，用于度量 25 个热门 LLM 模型的过度拒绝。
PDFa month ago
大规模语言模型的惰性安全对齐防止有害微调
通过精细调整的安全对齐技术，解决了大型语言模型在混合有害数据的数据集上进行微调后可能出现的问题，提出了一种双状态优化解决方案，引入了近端项来限制状态的偏移，实验证明这种方法可以显著提高对齐性能并保持用户任务上的准确性。
PDFa month ago
在大型语言模型的优化过程中测量风险：导航安全景观
通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为 “安全盆地” 的普遍现象，该现象在流行的开源 LLMs 模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE 安全度量标准，用于通过探测安全景观来衡量 L
PDFa month ago
无二恶：揭示微调攻击的不同机制
大型语言模型的现有安全对齐方式存在脆弱性，并可通过不同策略进行攻击，如对几个有害示例进行微调或操纵生成结果的前缀。本文通过研究两种攻击方法的机制发现，它们差异巨大，强调了理解大型语言模型内部安全保障过程的重要性，并建议需要多样的防御机制来应
PDFa month ago
视觉语言模型的安全对齐
通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。
PDFa month ago
WordGame：通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱
通过同时在查询和响应中进行模糊处理，我们提出了 WordGame 攻击，用于越过当前领先的专有和开源大型语言模型，包括最新的 Claude-3、GPT-4 和 Llama-3 模型的防护措施，从而破坏其对安全对齐的保护。
PDFa month ago
大规模语言模型的全面高效后编程安全对齐
我们提出了一种后安全对齐（PSA）方法，以解决目前大型语言模型（LLMs）中脆弱和不平衡的安全机制问题，并且能够提升安全性、减轻过度安全性，并在保持实用性的同时无缝集成到目标 LLM 中。实验表明，这种方法不仅实现了比基准方法更全面和高效的
PDFa month ago
AmpleGCG: 学习一种通用且可传输的对抗后缀生成模型，用于破解开放和关闭的 LLM
我们训练了一个生成模型，名为 AmpleGCG，它能够捕捉对抗性后缀的分布，使得在几秒钟内能够快速生成几百个对任何有害查询的后缀，并且能够以接近 100％的攻击成功率攻击多种语言模型。
PDF3 months ago
DrAttack: 强大的 LLM 越狱程序的提示分解与重构
该研究论文提出了一种自动提示分解和重构框架（DrAttack），通过将恶意提示分解为子提示，并通过上下文学习和同义词搜索来实现重新组装，从而有效地模糊其恶意意图，以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明，Dr
PDF4 months ago
打破突破：通过自我完善为 LM 防御越狱攻击重新定义
我们提出了一种自我改进的格式化方法，即使在非安全对齐的语言模型中也能实现出色的安全性，通过将我们的方法与几种防御基线进行评估，证明它是针对越狱攻击最安全的无需训练的方法。此外，我们提出了一种格式化方法，可以在更少的迭代中提高自我改进过程的效
PDF4 months ago
模拟非对齐：大规模语言模型的安全对齐可能适得其反！
通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。
PDF4 months ago
几乎零成本的安全微调：视觉大型语言模型的基准
当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小
PDF5 months ago