LLavaGuard: 基于 VLM 的视觉数据集整理与安全评估保护

Jun, 2024

LLavaGuard: 基于 VLM 的视觉数据集整理与安全评估保护

LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment

Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski

TL;DR通过引入基于 VLM 的安全模型 LlavaGuard，我们设计了可用于评估视觉内容的安全性合规性的多功能框架。我们使用高质量的视觉数据集对 LlavaGuard 进行了调试，其中涵盖了广泛的安全分类工具以在上下文感知的安全风险中进行 VLM 的调整，进而为其提供全面的信息响应，包括安全评级、违反的安全类别和深入的解释，其灵活的分类系统使得 LlavaGuard 可以根据不同场景进行定制化。通过实验证明了 LlavaGuard 在复杂的真实应用中的能力，表现出超越 GPT-4 等基准模型的最新性能，同时提供了从 7B 到 34B 参数的检查点，公开提供我们的数据集和模型权重，邀请研究人员进一步探索和满足不同社区和环境的需求。

Abstract

We introduce llavaguard, a family of VLM-based safeguard models, offering a versatile framework for evaluating the safety compliance of visual co

llavaguard safeguard models visual content dataset annotation generative model safeguarding

发现论文，激发创造

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了 MLLMGuard，一个针对 MLLMs 的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明 MLLMs 在安全和责任方面仍有很长的路要走。

Jun, 2024

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

这张图片有几只独角兽？一项用于视觉语言模型的安全评估基准

该研究聚焦于 Vision LLMs（VLLMs）在视觉推理中的潜力，从评估性能转移到引入了全面的安全评估套件，包括分布外泛化和对抗鲁棒性。

Nov, 2023

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。

Aug, 2023

Llama Guard: LLM 基于输入输出的人工智能对话保护

我们引入了 Llama Guard，一种基于 LLM 的输入输出保护模型，针对人工智能与人类对话应用场景设计。我们的模型包含一种安全风险分类法，用于对 LLM 提示中一组特定安全风险进行分类（即提示分类）。此分类法还用于对 LLM 生成的响应进行分类（即响应分类）的过程。为了进行提示和响应的分类，我们精心收集了高质量的数据集。Llama Guard 是一个在我们收集的数据集上进行指令调整的 Llama2-7b 模型，尽管数据量较少，但在现有基准测试中表现出色，如 OpenAI 评估数据集和 ToxicChat，其表现与当前可用的内容审查工具相匹配或超过。Llama Guard 作为一种语言模型，执行多类别分类并生成二进制决策分数。此外，Llama Guard 的指令微调允许定制任务和调整输出格式。此功能增强了模型的能力，例如使得能够调整分类法类别以适应特定用例，并促进零射击或少射击提示与多样化的分类法输入的配合。我们提供 Llama Guard 模型权重，并鼓励研究人员进一步开发和调整，以满足人工智能安全社区不断发展的需求。

Dec, 2023

保障大型语言模型的研究综述

在大语言模型（LLMs）领域中，开发一个强健的安全机制，俗称 “保障措施” 或 “防护栏”，已成为确保在既定边界内道德使用 LLMs 的必要措施。本文通过系统性文献综述，讨论了这种关键机制的当前状态，探讨了其主要挑战，并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。

Jun, 2024

LLMGuard：防范不安全 LLM 行为

通过使用一组检测器，我们提出了 “LLMGuard”，这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具，以应对大型语言模型在企业环境中带来的新机遇和挑战。

Feb, 2024

ShieldLM: 强化 LLM 为一致、可定制和可解释的安全检测器

该研究提出了一种基于大型语言模型的安全检测器 ShieldLM，它遵循通用的人类安全标准，支持可定制的检测规则，并提供其决策的解释。通过在包括 14,387 个查询 - 响应对的大型双语数据集上进行训练，研究表明，ShieldLM 在四个测试集上超越了强基准，展示了出色的可定制性和可解释性。除了在标准检测数据集上表现良好外，ShieldLM 还被证明在实际应用中作为先进语言模型的安全评估器具有有效性。通过 https://github.com/thu-coai/ShieldLM 发布的 ShieldLM 可以在各种安全标准下支持准确和可解释的安全检测，并为增强大型语言模型的安全性的持续努力做出贡献。

Feb, 2024