$R^2$-Guard: 通过知识增强的逻辑推理实现强化的LLM防护栏

Jul, 2024

$R^2$-Guard: 通过知识增强的逻辑推理实现强化的LLM防护栏

$R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

Mintong Kang, Bo Li

TL;DR提出了$R^2$-Guard，一种通过知识增强的逻辑推理实现的稳健推理型LLM安全防护措施，通过在数据驱动的防护模型和基于概率图模型的推理组件之间嵌入安全知识实现对各个安全分类的有效推理和辨别，有效性经过与八个强防护模型的对比以及对四种SOTA越狱攻击的鲁棒性测试得到验证。

Abstract

As llms become increasingly prevalent across various applications, it is critical to establish safety guardrails to moderate input/output content of →

发现论文，激发创造

GUARD：一个安全的强化学习基准

引入了通用统一的安全强化学习开发基准（GUARD）, 它是一个广义基准测试，涵盖了各种 RL 智能体、任务和安全约束规格。通过使用 GUARD 进行各种任务设置下的现有安全强化学习算法的比较，建立了未来工作可以构建基线的基础。

May, 2023

大型语言模型的建设性界定

建立大型语言模型的栏杆，通过多学科团队合作，以全面考虑各种应用环境，采用社会技术方法并进行验证和测试来确保最终产品的最高质量。

Feb, 2024

通过修剪和低秩修改评估安全对齐的脆弱性

利用剪枝和低秩修改探索大型语言模型的安全与稳健性，发现关键区域的剔除威胁了安全性但对效用影响不大，同时指出即使限制对关键区域的修改，大型语言模型仍然容易受到低成本的微调攻击，强调了对大型语言模型更强健的安全策略的迫切需求。

Feb, 2024

GuardAgent: 通过知识驱动的推理由防护手段保护LLM Agents

大型语言模型在应用中的快速发展引发了关于其安全性和可信度的新问题。本文提出了GuardAgent作为LLM代理的守卫，通过检查输入/输出是否满足用户定义的一组保护要求来监督目标LLM代理，从而增强其安全性。GuardAgent具有可扩展的工具箱、无需额外的LLM训练，并且在两个基准测试中实现了对两种类型代理的无效输入和输出进行调节的98.7%和90.0%的准确性。

Jun, 2024

LLM风险与AI防护栏的现状

大型语言模型( LLMs )的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署LLMs所面临的风险，并评估了目前实施防护和模型对齐技术的方法, 从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型LLMs的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护LLMs的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成(RAG)架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解LLMs的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保LLMs在实际应用中的安全和负责任使用。

Jun, 2024

WildGuard: 一站式开源安全风险、越狱及拒绝率审核工具

WildGuard是一个开放、轻量级的LLM安全审核工具，可以识别用户提示的恶意意图、检测模型响应的安全风险以及确定模型的拒绝率。通过在广泛的风险类别上提供精确性和广覆盖性，WildGuard满足了对LLM交互的自动安全审核和评估的不断增长的需求，并且与现有开放式审核工具相比，在评估模型拒绝行为时表现卓越，特别是在识别对抗性越狱和评估模型拒绝中.

Jun, 2024

通过反事实大型语言模型推理增强强化学习安全性

本研究解决了强化学习（RL）政策存在的安全性不足和难以解释的问题。通过引入反事实大型语言模型推理的方法，研究表明该方法在训练后显著提升了RL政策的安全性，并有助于提供更好的解释。此工作为强化学习的安全性保障提供了新的思路和方法。

Sep, 2024

HarmAug：安全守护模型知识蒸馏的有效数据增强

本研究针对安全守护模型在移动设备上部署时面临的内存和延迟问题，提出了一种新的数据增强方法HarmAug。该方法通过生成有害指令来丰富训练数据，从而使小型模型在性能上接近大型模型。研究表明，采用HarmAug训练的模型在F1分数和AUPRC上均优于较大的模型，同时计算成本仅为其25%。

Oct, 2024

监狱破解解药：通过稀疏表示调整实现大型语言模型的运行时安全-效用平衡

本研究针对大型语言模型（LLMs）在确保安全性与效用之间面临的挑战，提出了“监狱破解解药”方法。该方法通过在推理过程中操作模型内部状态的稀疏子集，实现了实时调整安全偏好的能力，显著提高了安全性而不影响模型的实用性。实验证明，调整约5%的内部状态即可与修改整个状态同样有效，表明该方法的高效性和实用性。

Oct, 2024

HarmAug：安全守护模型知识蒸馏的有效数据增强

本研究解决了现有安全守护模型因参数过多而导致在移动设备上的不实用性问题。提出了HarmAug，一种简单有效的数据增强方法，利用大型语言模型生成有害指令，显著提高了小型安全守护模型的表现，其效果与甚至超越了大型模型，同时计算成本不到后者的25%。

Oct, 2024