潜在的守卫:一种用于文本到图像生成的安全框架
通过使用生成方法增强文本到图像模型的鲁棒性,GuardT2I 框架在对抗性场景下显著优于 OpenAI-Moderation 和 Microsoft Azure Moderator 等商业解决方案。
Mar, 2024
SafeGen 是一种抵御文本到图像模型生成不安全内容的框架,通过消除不安全的视觉表示,从而提高抵御对抗性提示的能力,并在保留良性图像的高保真度的同时有效地抑制不安全内容的生成,超过了八种最先进的基线方法,实现了 99.1% 的性别内容去除性能。
Apr, 2024
LLMSafeGuard 是一个轻量级框架,通过将外部验证器集成到束搜索算法中,在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能,减少了 LLM 输出的有毒评分,并减小了版权内容的重复率。此外,LLMSafeGuard 的上下文选择策略降低了推断时间,并提供可调整参数来平衡效果和效率。
Apr, 2024
通过引入基于 VLM 的安全模型 LlavaGuard,我们设计了可用于评估视觉内容的安全性合规性的多功能框架。我们使用高质量的视觉数据集对 LlavaGuard 进行了调试,其中涵盖了广泛的安全分类工具以在上下文感知的安全风险中进行 VLM 的调整,进而为其提供全面的信息响应,包括安全评级、违反的安全类别和深入的解释,其灵活的分类系统使得 LlavaGuard 可以根据不同场景进行定制化。通过实验证明了 LlavaGuard 在复杂的真实应用中的能力,表现出超越 GPT-4 等基准模型的最新性能,同时提供了从 7B 到 34B 参数的检查点,公开提供我们的数据集和模型权重,邀请研究人员进一步探索和满足不同社区和环境的需求。
Jun, 2024
为了解决当前依赖互联网数据随机抓取并导致人类行为退化和偏见的文本导向图像生成方法在生成图像时存在的问题,我们提出了一种名为安全潜在扩散(SLD)的图像噪声过滤方法,从而通过包含不恰当的图像提示的实际图像 - 文本提示解决了这些问题。经过详尽的实证评估表明,SLD 能够在扩散过程中去除不恰当的图像部分,不需要额外的培训,并且对图像质量或文本对齐没有负面影响。
Nov, 2022
该研究旨在解决文本到图像(text-to-image,T2I)模型的安全问题,通过引入 Adversarial Nibbler 挑战,通过收集和分析对当前 state-of-the-art T2I 模型的攻击,来提高人们对这些问题的认识。
May, 2023
大规模的预训练生成模型在生成创意内容方面表现出色,但是存在安全风险,为了保护用户的权益和安全,我们提出了一种名为 ART 的新型自动红队框架,旨在通过结合视觉语言模型和大型语言模型,有效地识别文本转图像模型的漏洞,并通过实验证明了这种方法的有效性和适应性,以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。
May, 2024
通过利用嵌入的语言模型的数学基础,我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制,同时也允许通过精确的提示工程生成通常不真实的图像,我们还演示了将此操纵用于平衡生成类别频率的构造性应用。
Apr, 2024
通过将 LLMs 生成的对抗性提示用于 GPT-4 辅助 DALLE-3,引入了一种称为分治攻击的方法,绕过了文本到图像模型的安全过滤器,可能对安全性产生更严重的影响。
Dec, 2023
社交媒体平台通过使用人工智能和人工审核,模糊分享危险内容的图像以提高用户安全性,研究了图像模糊的理由和最小化模糊的方法,并通过实验证明了所提出方法的有效性。
Jan, 2024