MoGU: 提升开源 LLM 安全性并保持其可用性的框架

May, 2024

MoGU: 提升开源 LLM 安全性并保持其可用性的框架

MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability

Yanrui Du, Sendong Zhao, Danyang Zhao, Ming Ma, Yuhan Chen...

TL;DR我们通过引入 MoGU 框架，将基础大型语言模型 (LLMs) 转化为可用 LLM 和安全 LLM 两个变体，并进一步采用动态路由来平衡它们的贡献，从而增强 LLMs 的安全性，同时保留其可用性。我们的实验结果验证了 MoGU 框架的卓越性，并证明我们设计的路由机制能够通过分配权重有效平衡每个变体的贡献。

Abstract

large language models (LLMs) are increasingly deployed in various applications. As their usage grows, concerns regarding their safety are rising, especially in maintaining harmless responses when faced with malic

large language models defense strategies mogu framework dynamic routing safety

发现论文，激发创造

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

LLMGuard：防范不安全 LLM 行为

通过使用一组检测器，我们提出了 “LLMGuard”，这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具，以应对大型语言模型在企业环境中带来的新机遇和挑战。

Feb, 2024

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了 MLLMGuard，一个针对 MLLMs 的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明 MLLMs 在安全和责任方面仍有很长的路要走。

Jun, 2024

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。

May, 2024

Llama Guard: LLM 基于输入输出的人工智能对话保护

我们引入了 Llama Guard，一种基于 LLM 的输入输出保护模型，针对人工智能与人类对话应用场景设计。我们的模型包含一种安全风险分类法，用于对 LLM 提示中一组特定安全风险进行分类（即提示分类）。此分类法还用于对 LLM 生成的响应进行分类（即响应分类）的过程。为了进行提示和响应的分类，我们精心收集了高质量的数据集。Llama Guard 是一个在我们收集的数据集上进行指令调整的 Llama2-7b 模型，尽管数据量较少，但在现有基准测试中表现出色，如 OpenAI 评估数据集和 ToxicChat，其表现与当前可用的内容审查工具相匹配或超过。Llama Guard 作为一种语言模型，执行多类别分类并生成二进制决策分数。此外，Llama Guard 的指令微调允许定制任务和调整输出格式。此功能增强了模型的能力，例如使得能够调整分类法类别以适应特定用例，并促进零射击或少射击提示与多样化的分类法输入的配合。我们提供 Llama Guard 模型权重，并鼓励研究人员进一步开发和调整，以满足人工智能安全社区不断发展的需求。

Dec, 2023

RigorLLM：大型语言模型抵御不良内容的弹性防护

RigorLLM 是一种新颖的框架，通过多方面的方法包括基于能源的训练数据增强、通过极小化最大优化为输入优化安全后缀和通过融合 KNN 和 LLMs 的基于数据增强的模型来高效有效地调节 LLMs 的有害和不安全输入和输出，从而提供了一种强大的有害内容调节解决方案。与现有基准如 OpenAI API 和 Perspective API 相比，RigorLLM 不仅在检测有害内容方面表现出色，而且对越狱攻击表现出无与伦比的韧性。限制优化和融合防护栏方法的创新应用代表了发展更安全可靠的 LLMs 的重要进展，为应对不断演进的数字威胁树立了新的内容调节框架标准。

Mar, 2024

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

保障大型语言模型的研究综述

在大语言模型（LLMs）领域中，开发一个强健的安全机制，俗称 “保障措施” 或 “防护栏”，已成为确保在既定边界内道德使用 LLMs 的必要措施。本文通过系统性文献综述，讨论了这种关键机制的当前状态，探讨了其主要挑战，并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。

Jun, 2024