探究不安全的视频生成
该研究提出了一种名为SneakyPrompt的自动化攻击框架,使用强化学习来生成可以绕过现有文本到图像生成模型的安全过滤器的不安全内容。实验表明,SneakyPrompt不仅可以成功生成NSFW内容,而且在查询数量和图像质量方面也优于现有的对抗攻击。
May, 2023
我们成功地设计并展示了对Midjourney的首个prompt攻击,从而生成大量逼真的不适宜工作场所的图像,揭示了此类攻击的基本原理,并建议通过策略性地替换可疑提示中的高风险部分来规避闭源安全措施。我们的新框架SurrogatePrompt可以系统地利用大型语言模型、图像到文本和图像到图像模块自动扩展攻击提示的创建。评估结果显示,在我们的攻击提示下,绕过Midjourney的专有安全过滤器的成功率达到88%,导致生成描绘政治人物处于暴力情境中的冒牌图像。主观和客观评估均验证我们的攻击提示生成的图像存在相当大的安全风险。
Sep, 2023
社交媒体平台通过使用人工智能和人工审核,模糊分享危险内容的图像以提高用户安全性,研究了图像模糊的理由和最小化模糊的方法,并通过实验证明了所提出方法的有效性。
Jan, 2024
VGMShield introduces three straightforward but pioneering mitigations for fake video generation: fake video detection, tracing, and prevention via leveraging spatial-temporal dynamics and invisible perturbations, achieving nearly perfect accuracy in detection and tracing.
Feb, 2024
该研究探讨了在线用户生成内容游戏的非法推广问题,通过收集现实世界的数据集并使用先进的视觉-语言模型与链式思维推理策略,开发了UGCG-Guard系统,在社交媒体平台上有效识别这些非法推广的图片,准确率达到94%。
Mar, 2024
SafeGen是一种抵御文本到图像模型生成不安全内容的框架,通过消除不安全的视觉表示,从而提高抵御对抗性提示的能力,并在保留良性图像的高保真度的同时有效地抑制不安全内容的生成,超过了八种最先进的基线方法,实现了99.1%的性别内容去除性能。
Apr, 2024
Sora的最新发展带来了文本到视频(T2V)生成的新时代,但也引起了对其安全风险的关注。文章引入了T2VSafetyBench,这个新的基准旨在进行安全关键评估,定义了视频生成安全的12个关键方面并构建了恶意提示数据集,结果显示了模型的异质性和使用性与安全性之间的权衡,强调了在生成AI时优先考虑视频安全的紧迫性。
Jul, 2024
该论文提供了对AI生成视觉媒体防御研究的系统和及时的审查,包括检测、干扰和认证,同时调查了关于防御可信度的派生任务,如鲁棒性和公平性,提出了一个统一的被动和主动的框架,并总结了常用的评估数据集、标准和指标,并通过分析审查的研究,提供了当前研究挑战的见解,并提出了未来研究的可能方向。
Jul, 2024