探究不安全的视频生成

Jul, 2024

Towards Understanding Unsafe Video Generation

Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang

TL;DR通过使用视频生成模型生成包含不安全内容的视频，本研究旨在全面了解不安全视频生成的潜力和相关的防御机制，其中通过聚类和主题编码分析生成的视频，确定了5个不安全视频类别，并提出了一种新的名为潜变量防御（LVD）的方法来预防不安全视频的生成。

Abstract

video generation models (VGMs) have demonstrated the capability to synthesize high-quality output. It is important to understand their potential to produce unsafe content, such as violent or terrifying videos. In

发现论文，激发创造

SneakyPrompt：评估文本到图像生成模型安全过滤器的鲁棒性

该研究提出了一种名为SneakyPrompt的自动化攻击框架，使用强化学习来生成可以绕过现有文本到图像生成模型的安全过滤器的不安全内容。实验表明，SneakyPrompt不仅可以成功生成NSFW内容，而且在查询数量和图像质量方面也优于现有的对抗攻击。

May, 2023

不安全的扩散：关于从文本到图像模型生成不安全图像和令人憎恶的表情包

研究发现最新的文本到图像生成模型可能会生成危险的、令人讨厌的和恶毒的图片，为此提出了多种缓解措施。

May, 2023

恶意还是良性？针对儿童视频的有效内容管理

本研究介绍了一款工具，可以自动检测儿童视频是否存在恶意内容，包括可定制注释工具、数据集和基准测试套件。

May, 2023

文本图像模型的安全过滤器绕过方法

我们成功地设计并展示了对Midjourney的首个prompt攻击，从而生成大量逼真的不适宜工作场所的图像，揭示了此类攻击的基本原理，并建议通过策略性地替换可疑提示中的高风险部分来规避闭源安全措施。我们的新框架SurrogatePrompt可以系统地利用大型语言模型、图像到文本和图像到图像模块自动扩展攻击提示的创建。评估结果显示，在我们的攻击提示下，绕过Midjourney的专有安全过滤器的成功率达到88％，导致生成描绘政治人物处于暴力情境中的冒牌图像。主观和客观评估均验证我们的攻击提示生成的图像存在相当大的安全风险。

Sep, 2023

图像安全维护：使用条件视觉语言模型推理和逆向遮蔽危险内容

社交媒体平台通过使用人工智能和人工审核，模糊分享危险内容的图像以提高用户安全性，研究了图像模糊的理由和最小化模糊的方法，并通过实验证明了所提出方法的有效性。

Jan, 2024

VGMShield: 缓解视频生成模型的误用

VGMShield introduces three straightforward but pioneering mitigations for fake video generation: fake video detection, tracing, and prevention via leveraging spatial-temporal dynamics and invisible perturbations, achieving nearly perfect accuracy in detection and tracing.

Feb, 2024

使用大型视觉语言模型对不安全用户生成内容游戏的非法在线图片推广进行调控

该研究探讨了在线用户生成内容游戏的非法推广问题，通过收集现实世界的数据集并使用先进的视觉-语言模型与链式思维推理策略，开发了UGCG-Guard系统，在社交媒体平台上有效识别这些非法推广的图片，准确率达到94%。

Mar, 2024

SafeGen: 缓解文本生成图像模型的不安全内容

SafeGen是一种抵御文本到图像模型生成不安全内容的框架，通过消除不安全的视觉表示，从而提高抵御对抗性提示的能力，并在保留良性图像的高保真度的同时有效地抑制不安全内容的生成，超过了八种最先进的基线方法，实现了99.1%的性别内容去除性能。

Apr, 2024

T2VSafetyBench评估文本到视频生成模型的安全性

Sora的最新发展带来了文本到视频（T2V）生成的新时代，但也引起了对其安全风险的关注。文章引入了T2VSafetyBench，这个新的基准旨在进行安全关键评估，定义了视频生成安全的12个关键方面并构建了恶意提示数据集，结果显示了模型的异质性和使用性与安全性之间的权衡，强调了在生成AI时优先考虑视频安全的紧迫性。

Jul, 2024

对抗人工智能生成的视觉媒体的防御综述：检测、干扰和认证

该论文提供了对AI生成视觉媒体防御研究的系统和及时的审查，包括检测、干扰和认证，同时调查了关于防御可信度的派生任务，如鲁棒性和公平性，提出了一个统一的被动和主动的框架，并总结了常用的评估数据集、标准和指标，并通过分析审查的研究，提供了当前研究挑战的见解，并提出了未来研究的可能方向。

Jul, 2024