RigorLLM：大型语言模型抵御不良内容的弹性防护

Mar, 2024

RigorLLM：大型语言模型抵御不良内容的弹性防护

RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content

Zhuowen Yuan, Zidi Xiong, Yi Zeng, Ning Yu, Ruoxi Jia...

TL;DRRigorLLM 是一种新颖的框架，通过多方面的方法包括基于能源的训练数据增强、通过极小化最大优化为输入优化安全后缀和通过融合 KNN 和 LLMs 的基于数据增强的模型来高效有效地调节 LLMs 的有害和不安全输入和输出，从而提供了一种强大的有害内容调节解决方案。与现有基准如 OpenAI API 和 Perspective API 相比，RigorLLM 不仅在检测有害内容方面表现出色，而且对越狱攻击表现出无与伦比的韧性。限制优化和融合防护栏方法的创新应用代表了发展更安全可靠的 LLMs 的重要进展，为应对不断演进的数字威胁树立了新的内容调节框架标准。

Abstract

Recent advancements in large language models (LLMs) have showcased remarkable capabilities across various tasks in different domains. However, the emergence of biases and the potential for generating harmful content in LLMs, particularly under malicious inputs, pose significant challen

large language models resilient guardrails harmful content moderation adversarial attacks content moderation frameworks

发现论文，激发创造

LLMGuard：防范不安全 LLM 行为

通过使用一组检测器，我们提出了 “LLMGuard”，这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具，以应对大型语言模型在企业环境中带来的新机遇和挑战。

Feb, 2024

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

保障大型语言模型的研究综述

在大语言模型（LLMs）领域中，开发一个强健的安全机制，俗称 “保障措施” 或 “防护栏”，已成为确保在既定边界内道德使用 LLMs 的必要措施。本文通过系统性文献综述，讨论了这种关键机制的当前状态，探讨了其主要挑战，并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。

Jun, 2024

LoRA-Guard：大型语言模型内容审核的参数高效护栏适应

LoRA-Guard 是一种参数高效的防护栏适应方法，它通过 LLMs 和防护模型之间的知识共享提取语言特征，并使用低秩适配器适应内容调节任务，双路径设计防止生成任务性能降低。它在保持准确性的同时，有效降低参数开销，实现了设备上的内容调节。

Jul, 2024

大型语言模型的建设性界定

建立大型语言模型的栏杆，通过多学科团队合作，以全面考虑各种应用环境，采用社会技术方法并进行验证和测试来确保最终产品的最高质量。

Feb, 2024

构建安全负责的大语言模型 -- 一个综合框架

为了提高语言生成模型的安全性，我们引入了安全可靠的大型语言模型 SR$_{ext {LLM}}$，通过使用细致标注的数据集和多种方法来识别潜在的不安全内容，并生成无害的变体。经过对多个数据集的测试，我们观察到不安全内容的生成显著减少，同时在安全内容的生成方面也有明显的改进。我们的工作详细描述了 SR$_{ext {LLM}}$ 的微调过程，并通过社区参与来推动 LMM 的负责任推进。

Apr, 2024

大型语言模型的因果可解释弹道

LLMGuardaril 是一个新型的框架，结合因果分析和对抗学习，以获取大型语言模型中的无偏导向表示，从而将其引导到预期的属性，同时减少偏见。

May, 2024

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了 MLLMGuard，一个针对 MLLMs 的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明 MLLMs 在安全和责任方面仍有很长的路要走。

Jun, 2024

通过强鲁棒对齐的 LLM 防御对齐破坏攻击

最近，大型语言模型（LLMs）取得了明显的进展，并在各个领域得到广泛应用。然而，人们越来越担心 LLMs 可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型（RA-LLM），它可以直接在现有的对齐语言模型上构建，无需进行昂贵的重训练或微调过程。此外，我们还提供了对 RA-LLM 的理论分析，以验证其在抵御破坏对齐攻击方面的有效性。通过对开源大型语言模型进行的实际实验，我们证明 RA-LLM 可以成功抵御最先进的对抗性提示和流行的手工破解提示，将其攻击成功率从近 100％降低到约 10％或更低。

Sep, 2023