潜在的守卫：一种用于文本到图像生成的安全框架

Apr, 2024

潜在的守卫：一种用于文本到图像生成的安全框架

Latent Guard: a Safety Framework for Text-to-image Generation

Runtao Liu, Ashkan Khakzar, Jindong Gu, Qifeng Chen, Philip Torr...

TL;DR通过在文本与图像生成模型的文本编码器上学习潜空间，Latent Guard 提出了一种用于改进文本与图像生成中安全性措施的框架，能够检测输入文本嵌入中存在的有害概念。

Abstract

With the ability to generate high-quality images, text-to-image (T2I) models can be exploited for creating inappropriate content. To prevent misuse, existing safety measures are either based on text blacklists, which can be easily circumvented, or →

text-to-image models safety measures latent guard harmful content latent space

发现论文，激发创造

GuardT2I：保护文本到图像模型免受对抗性提示攻击

通过使用生成方法增强文本到图像模型的鲁棒性，GuardT2I 框架在对抗性场景下显著优于 OpenAI-Moderation 和 Microsoft Azure Moderator 等商业解决方案。

Mar, 2024

SafeGen: 缓解文本生成图像模型的不安全内容

SafeGen 是一种抵御文本到图像模型生成不安全内容的框架，通过消除不安全的视觉表示，从而提高抵御对抗性提示的能力，并在保留良性图像的高保真度的同时有效地抑制不安全内容的生成，超过了八种最先进的基线方法，实现了 99.1% 的性别内容去除性能。

Apr, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

LLavaGuard: 基于 VLM 的视觉数据集整理与安全评估保护

通过引入基于 VLM 的安全模型 LlavaGuard，我们设计了可用于评估视觉内容的安全性合规性的多功能框架。我们使用高质量的视觉数据集对 LlavaGuard 进行了调试，其中涵盖了广泛的安全分类工具以在上下文感知的安全风险中进行 VLM 的调整，进而为其提供全面的信息响应，包括安全评级、违反的安全类别和深入的解释，其灵活的分类系统使得 LlavaGuard 可以根据不同场景进行定制化。通过实验证明了 LlavaGuard 在复杂的真实应用中的能力，表现出超越 GPT-4 等基准模型的最新性能，同时提供了从 7B 到 34B 参数的检查点，公开提供我们的数据集和模型权重，邀请研究人员进一步探索和满足不同社区和环境的需求。

Jun, 2024

安全隐变扩散：缓解扩散模型中的不当降解

为了解决当前依赖互联网数据随机抓取并导致人类行为退化和偏见的文本导向图像生成方法在生成图像时存在的问题，我们提出了一种名为安全潜在扩散（SLD）的图像噪声过滤方法，从而通过包含不恰当的图像提示的实际图像 - 文本提示解决了这些问题。经过详尽的实证评估表明，SLD 能够在扩散过程中去除不恰当的图像部分，不需要额外的培训，并且对图像质量或文本对齐没有负面影响。

Nov, 2022

对抗性 Nibbler：一个以数据为中心的挑战，用于提高文本到图像模型的安全性

该研究旨在解决文本到图像（text-to-image，T2I）模型的安全问题，通过引入 Adversarial Nibbler 挑战，通过收集和分析对当前 state-of-the-art T2I 模型的攻击，来提高人们对这些问题的认识。

May, 2023

ART：自动红队针对文本到图像模型保护正常用户

大规模的预训练生成模型在生成创意内容方面表现出色，但是存在安全风险，为了保护用户的权益和安全，我们提出了一种名为 ART 的新型自动红队框架，旨在通过结合视觉语言模型和大型语言模型，有效地识别文本转图像模型的漏洞，并通过实验证明了这种方法的有效性和适应性，以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。

May, 2024

严重程度可控的文本到图像生成模型的偏倚操纵

通过利用嵌入的语言模型的数学基础，我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制，同时也允许通过精确的提示工程生成通常不真实的图像，我们还演示了将此操纵用于平衡生成类别频率的构造性应用。

Apr, 2024

分治攻击：利用 LLM 的威力绕过文本到图像生成模型的审查

通过将 LLMs 生成的对抗性提示用于 GPT-4 辅助 DALLE-3，引入了一种称为分治攻击的方法，绕过了文本到图像模型的安全过滤器，可能对安全性产生更严重的影响。

Dec, 2023

图像安全维护：使用条件视觉语言模型推理和逆向遮蔽危险内容

社交媒体平台通过使用人工智能和人工审核，模糊分享危险内容的图像以提高用户安全性，研究了图像模糊的理由和最小化模糊的方法，并通过实验证明了所提出方法的有效性。

Jan, 2024