Llama Guard: LLM 基于输入输出的人工智能对话保护

Dec, 2023

Llama Guard: LLM 基于输入输出的人工智能对话保护

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer...

TL;DR我们引入了 Llama Guard，一种基于 LLM 的输入输出保护模型，针对人工智能与人类对话应用场景设计。我们的模型包含一种安全风险分类法，用于对 LLM 提示中一组特定安全风险进行分类（即提示分类）。此分类法还用于对 LLM 生成的响应进行分类（即响应分类）的过程。为了进行提示和响应的分类，我们精心收集了高质量的数据集。Llama Guard 是一个在我们收集的数据集上进行指令调整的 Llama2-7b 模型，尽管数据量较少，但在现有基准测试中表现出色，如 OpenAI 评估数据集和 ToxicChat，其表现与当前可用的内容审查工具相匹配或超过。Llama Guard 作为一种语言模型，执行多类别分类并生成二进制决策分数。此外，Llama Guard 的指令微调允许定制任务和调整输出格式。此功能增强了模型的能力，例如使得能够调整分类法类别以适应特定用例，并促进零射击或少射击提示与多样化的分类法输入的配合。我们提供 Llama Guard 模型权重，并鼓励研究人员进一步开发和调整，以满足人工智能安全社区不断发展的需求。

Abstract

We introduce llama guard, an LLM-based input-output safeguard model geared towards Human-AI conversation use cases. Our model incorporates a safety risk taxonomy, a valuable tool for categorizing a specific set of safety risks found in LLM prompts (i.e., →

llama guard safety risk taxonomy prompt classification response classification content moderation tools

发现论文，激发创造

LLMGuard：防范不安全 LLM 行为

通过使用一组检测器，我们提出了 “LLMGuard”，这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具，以应对大型语言模型在企业环境中带来的新机遇和挑战。

Feb, 2024

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

WildGuard: 一站式开源安全风险、越狱及拒绝率审核工具

WildGuard 是一个开放、轻量级的 LLM 安全审核工具，可以识别用户提示的恶意意图、检测模型响应的安全风险以及确定模型的拒绝率。通过在广泛的风险类别上提供精确性和广覆盖性，WildGuard 满足了对 LLM 交互的自动安全审核和评估的不断增长的需求，并且与现有开放式审核工具相比，在评估模型拒绝行为时表现卓越，特别是在识别对抗性越狱和评估模型拒绝中.

Jun, 2024

大型语言模型的建设性界定

建立大型语言模型的栏杆，通过多学科团队合作，以全面考虑各种应用环境，采用社会技术方法并进行验证和测试来确保最终产品的最高质量。

Feb, 2024

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

GuardAgent: 通过知识驱动的推理由防护手段保护 LLM Agents

大型语言模型在应用中的快速发展引发了关于其安全性和可信度的新问题。本文提出了 GuardAgent 作为 LLM 代理的守卫，通过检查输入 / 输出是否满足用户定义的一组保护要求来监督目标 LLM 代理，从而增强其安全性。GuardAgent 具有可扩展的工具箱、无需额外的 LLM 训练，并且在两个基准测试中实现了对两种类型代理的无效输入和输出进行调节的 98.7% 和 90.0% 的准确性。

Jun, 2024

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

减轻大型语言模型中的夸大安全性

通过使用多种提示策略，我们成功地减少了大型语言模型中的过度安全行为，这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示，从而使模型能够在拒绝不安全的输入的同时保持有用性。

May, 2024

LLavaGuard: 基于 VLM 的视觉数据集整理与安全评估保护

通过引入基于 VLM 的安全模型 LlavaGuard，我们设计了可用于评估视觉内容的安全性合规性的多功能框架。我们使用高质量的视觉数据集对 LlavaGuard 进行了调试，其中涵盖了广泛的安全分类工具以在上下文感知的安全风险中进行 VLM 的调整，进而为其提供全面的信息响应，包括安全评级、违反的安全类别和深入的解释，其灵活的分类系统使得 LlavaGuard 可以根据不同场景进行定制化。通过实验证明了 LlavaGuard 在复杂的真实应用中的能力，表现出超越 GPT-4 等基准模型的最新性能，同时提供了从 7B 到 34B 参数的检查点，公开提供我们的数据集和模型权重，邀请研究人员进一步探索和满足不同社区和环境的需求。

Jun, 2024