LLMGuard：防范不安全 LLM 行为

AAAIFeb, 2024

LLMGuard: Guarding Against Unsafe LLM Behavior

Shubh Goyal, Medha Hira, Shubham Mishra, Sukriti Goyal, Arnav Goel...

TL;DR通过使用一组检测器，我们提出了 “LLMGuard”，这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具，以应对大型语言模型在企业环境中带来的新机遇和挑战。

Abstract

Although the rise of large language models (llms) in enterprise settings brings new opportunities and capabilities, it also brings challen

large language models llms enterprise settings llmguard ensemble of detectors

发现论文，激发创造

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

RigorLLM：大型语言模型抵御不良内容的弹性防护

RigorLLM 是一种新颖的框架，通过多方面的方法包括基于能源的训练数据增强、通过极小化最大优化为输入优化安全后缀和通过融合 KNN 和 LLMs 的基于数据增强的模型来高效有效地调节 LLMs 的有害和不安全输入和输出，从而提供了一种强大的有害内容调节解决方案。与现有基准如 OpenAI API 和 Perspective API 相比，RigorLLM 不仅在检测有害内容方面表现出色，而且对越狱攻击表现出无与伦比的韧性。限制优化和融合防护栏方法的创新应用代表了发展更安全可靠的 LLMs 的重要进展，为应对不断演进的数字威胁树立了新的内容调节框架标准。

Mar, 2024

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了 MLLMGuard，一个针对 MLLMs 的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明 MLLMs 在安全和责任方面仍有很长的路要走。

Jun, 2024

自护：赋予 LLM 保护自身能力

利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题，包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测，实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。

Oct, 2023

保障大型语言模型的研究综述

在大语言模型（LLMs）领域中，开发一个强健的安全机制，俗称 “保障措施” 或 “防护栏”，已成为确保在既定边界内道德使用 LLMs 的必要措施。本文通过系统性文献综述，讨论了这种关键机制的当前状态，探讨了其主要挑战，并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。

Jun, 2024

TroubleLLM: 与红队专家对齐

通过提出的第一个 LLM 模型 TroubleLLM 在 LLM 安全问题上生成可控的测试提示，广泛的实验和人工评估表明 TroubleLLM 在生成质量和生成可控性上的优越性。

Feb, 2024

安全可靠的 LLM 检测器：实施、应用和局限性

为了应对大规模语言模型的各种风险以及提供有效的人工智能治理，我们致力于创建和应用一套迅速、可靠的检测器模型，旨在识别各种有害输出，并探讨了其发展中的挑战和未来工作。

Mar, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

Llama Guard: LLM 基于输入输出的人工智能对话保护

我们引入了 Llama Guard，一种基于 LLM 的输入输出保护模型，针对人工智能与人类对话应用场景设计。我们的模型包含一种安全风险分类法，用于对 LLM 提示中一组特定安全风险进行分类（即提示分类）。此分类法还用于对 LLM 生成的响应进行分类（即响应分类）的过程。为了进行提示和响应的分类，我们精心收集了高质量的数据集。Llama Guard 是一个在我们收集的数据集上进行指令调整的 Llama2-7b 模型，尽管数据量较少，但在现有基准测试中表现出色，如 OpenAI 评估数据集和 ToxicChat，其表现与当前可用的内容审查工具相匹配或超过。Llama Guard 作为一种语言模型，执行多类别分类并生成二进制决策分数。此外，Llama Guard 的指令微调允许定制任务和调整输出格式。此功能增强了模型的能力，例如使得能够调整分类法类别以适应特定用例，并促进零射击或少射击提示与多样化的分类法输入的配合。我们提供 Llama Guard 模型权重，并鼓励研究人员进一步开发和调整，以满足人工智能安全社区不断发展的需求。

Dec, 2023