利用虚构单词的图像生成对抗攻击

Aug, 2022

利用虚构单词的图像生成对抗攻击

Adversarial Attacks on Image Generation With Made-Up Words

Raphaël Millière

TL;DR该研究提出了两种方法，通过使用 nonce words 来引导图像生成模型并对其进行调整，从而产生与特定视觉概念相关的图像，并讨论了这些技术对绕过现有内容审查方法的影响。

Abstract

text-guided image generation models can be prompted to generate images using nonce words adversarially designed to robustly evoke specific visual concepts. Two approaches for such generation are introduced:

text-guided image generation models macaronic prompting evocative prompting censorship circumvention visual concepts

发现论文，激发创造

生成对抗文本到图像的合成

利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式，将字符转换为像素，有效地将文本和图像建模相结合，从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。

May, 2016

对抗性文本到图像合成：综述

该论文综述了生成对抗网络在文本到图像合成方面的发展以及面临的挑战，提出了一些研究方向，包括评估指标、数据集和模型架构设计等方面的改进。

Jan, 2021

超越叙述描写：通过多方对抗训练从图像生成诗歌

本文研究以图像为输入生成多行诗歌的任务，通过提出多个深度神经网络模型，包括一个深度视觉 - 诗歌嵌入模型、一个多模式鉴别器和一个诗歌风格鉴别器，并且通过多重对抗性训练方法，实现跨模态关联和保证诗意的诗歌生成能力。实验结果表明，本论文提出的方法优于现有的诗歌生成算法。

Apr, 2018

基于序列条件的手写文本图像对抗生成

该研究提出了一种基于生成对抗网络的系统，可以合成手写单词的合成图像，并在将其与现有训练数据集集成后通过改进通用 GAN 体系结构进行离线手写文本识别。

Mar, 2019

通过对抗学习进行语义图像合成

本文提出了一种使用自然语言描述直接合成逼真图像的方法，它有很多有用的应用，例如智能图像操作。我们提出了一种端到端的神经架构，利用对抗学习自动学习隐式损失函数，实现语义分离并生成新图像。通过在 Caltech-200 鸟类数据集和 Oxford-102 花卉数据集上进行实验，我们证明了我们的模型能够合成符合描述要求的逼真图像，同时仍保留原始图像的其他特征。

Jul, 2017

文本自适应生成对抗网络：用自然语言编辑图片

本文提出一种文本适应的生成对抗网络 (TAGAN)，用以保留不相关的图片内容，并根据自然语言描述进行图像属性的语义修改。该网络通过创建词级本地判别器，按照输入的文本进行细粒度属性的独立分类，实现只修改特定区域的图像。经实验验证，该方法在 CUB 和 Oxford-102 数据集上比现有方法表现更好。

Oct, 2018

一张图抵一千言：使用文本反演个性化文本到图像生成

使用 3-5 张用户提供的概念图片，在文本到图像模型的嵌入空间中学习表示之后，将其转化成新的 “单词”，从而达到自由创造。

Aug, 2022

轻量级生成对抗网络用于文本引导的图像操纵

我们提出了一种新颖的轻量化生成对抗网络，使用自然语言描述来进行有效的图像操作。我们提出了一种新的单词级别鉴别器，为生成器提供细粒度的单词级别训练反馈，以便训练一个轻量级生成器，该生成器具有少量参数，但仍然能够正确地关注图像的特定视觉属性，然后进行编辑，而不会影响其他未在文本中描述的内容。与现有技术相比，我们的方法具有更少的参数数量，但仍然实现了有竞争力的操作性能。广泛的实验结果表明，我们的方法能够更好地解耦不同的视觉属性，然后正确地将它们映射到相应的语义词汇，从而使用自然语言描述实现更准确的图像修改。

Oct, 2020

从安全基准筛选敌对提示：关于敌对咬地机挑战的报告

文本条件的图像生成模型在图像质量和对齐性方面取得了惊人的结果，然而它们依赖于从网络随机获取的数量庞大的数据集，因此也会生成不安全的内容。作为对 Adversarial Nibbler 挑战的贡献，我们从现有的安全基准中提取了超过 1,000 个潜在对抗性输入，通过对收集到的提示和相应的图像进行分析，揭示了输入过滤器的脆弱性并进一步深入研究了当前生成图像模型中的系统安全问题。

Sep, 2023

对视觉语言基础的对抗性攻击：神经图像字幕案例研究

本文提出了一种新的算法 Show-and-Fool，用于研究神经图像字幕系统在机器视觉和感知中健壮的语言基础，该算法通过两种评估方法检查神经图像字幕系统是否能够误导输出某些随机选择的字幕或关键字。实验证明，我们的算法可以成功地制作出视觉相似的对抗性例子，对其他图像字幕系统高度可传递，并导致了视觉语言基础的新型健壮性影响和新的洞察。

Dec, 2017