文本倒装用于概念审查的后门技术
本文提出了一种名为 COTI 的新方法,应用在大规模生成模型中,通过一个综合的、新颖的加权评分机制指导的理论损失目标,实现了具有鲁棒性、数据高效性和易于使用等特点,能够显著提升 FID 得分并增加 R-precision 的生成模型,一定程度上解决了过往生成模型中仍存在的问题。
Apr, 2023
研究了个人化的文本到图像(T2I)扩散模型的潜在漏洞和易受攻击的方法,并探讨了两种个性化方法中零日后门漏洞的普遍性及其操作和利用潜力,并分析了触发器和概念图像对攻击效果的影响。
May, 2023
通过利用嵌入的语言模型的数学基础,我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制,同时也允许通过精确的提示工程生成通常不真实的图像,我们还演示了将此操纵用于平衡生成类别频率的构造性应用。
Apr, 2024
从文本到图像生成模型到 AI 安全的概念消除方法,这篇论文研究了五种最近提出的概念消除方法,并展示了这些方法中没有一个能完全抹除目标概念,并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回,这突显了事后概念消除方法的脆弱性,并对其在 AI 安全算法工具箱中的使用产生了质疑。
Aug, 2023
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
本文通过在三个语义层次(像素、物体和风格)上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论,提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明,现代扩散模型可以在几个微调步骤内轻易被后门攻击,在进一步的训练过程中攻击效果仍能保持。
May, 2023
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023
通过初始化方法的研究,我们提出了一种称为 Cross Initialization 的新型初始化方法,它明显缩小了初始嵌入和学习嵌入之间的差距,通过与正则化项相结合,有效提高了可编辑性,并在编辑人脸表情方面取得了成功,同时实现了较快的图像捕获速度和较好的重建和可编辑性。
Dec, 2023
对文本到图像生成模型中的攻击漏洞进行了研究,证明了通过少量恶意数据样本在特殊触发条件下激活的后门攻击的可行性,突出了在操作限制下证明偏见存在的挑战,并强调了对这些漏洞的强大防御策略的需求。
Jun, 2024