利用文化偏见在文本到图像合成中的同形字攻击

Sep, 2022

利用文化偏见在文本到图像合成中的同形字攻击

Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis

Lukas Struppek, Dominik Hintersdorf, Felix Friedrich, Manuel Brack, Patrick Schramowski...

TL;DR通过在文本描述中插入单个非拉丁字符，我们展示了普通模型如何反映文化刻板印象和偏见。我们定性和定量分析了这种行为，并将其归因于模型的文本编码器。此外，我们提出了一种新颖的同形学习方法，通过微调文本编码器，使其能够抵抗同形符号的操纵.

Abstract

Models for text-to-image synthesis, such as dall-e~2 and Stable Diffusion, have recently drawn a lot of interest from academia and the general public. These models are capable of producing high-quality images tha

text-to-image synthesis dall-e~2 cultural stereotypes homoglyphs text encoder

发现论文，激发创造

利用同形异义字规避 AI 生成的内容检测器

本研究通过分析同形异义字如何转移文本的记号化和标记的对数似然值，对比了现有大语言模型检测器在五个不同数据集上与同形异义字攻击的有效性，发现同形异义字攻击可以有效躲避现有的大语言模型检测器，讨论了这些发现的影响以及可能的防御方法。

Jun, 2024

攻击神经文本检测器

本文介绍了两种黑匣子攻击方法，一种是将字符随机替换为了形似字，另一种是故意拼错单词，受攻击的神经文本检测器从 97.44％降至 0.26％和 22.68％，攻击也可转移至其他文本检测器。

Feb, 2020

向文本编码器注入后门，滋扰艺术创作：文本到图像合成

介绍了一种针对文本引导的生成模型的后门攻击，揭示了文本编码器的实际修改可能性和潜在威胁，并通过在提示中插入单个字符触发器的方式，演示了攻击的高有效性。同时，还讨论了如何强制让编码器从忘记一些相关的概念，以便更加安全地生成图像。

Nov, 2022

GlyphNet：Homoglyph 域名数据集及使用基于注意力的卷积神经网络进行检测

本文介绍了一种基于图像数据和卷积神经网络的注意力基线方法，能够在实际场景中检测和识别 Homoglyph 攻击，并优于现有方法。

Jun, 2023

不安全的扩散：关于从文本到图像模型生成不安全图像和令人憎恶的表情包

研究发现最新的文本到图像生成模型可能会生成危险的、令人讨厌的和恶毒的图片，为此提出了多种缓解措施。

May, 2023

探索文本到图像基础模型在下游应用中的社会偏见

使用合成图像的方法探索扩散模型的两个应用领域（图像编辑和分类），从而揭示了目前最先进的开源文本到图像模型 Stable Diffusion 中存在的具有意义且显著的交叉社会偏见，这对于下游任务和服务中文本到图像基础模型的不加思考的应用提出了警告。

Dec, 2023

通过文本生成图像透视社交偏见

本文通过对两个流行的 T2I 模型（DALLE-v2 和 Stable Diffusion）进行广泛的自动化和人工评估实验，专注于反映出的性别、年龄、种族和地理位置之间的职业，人格特征和日常情况的生成图像，研究和量化常见的社会偏见。我们的研究结果表明，这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差，但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。

Mar, 2023

文本到图像生成中的偏见调查：定义、评估和缓解

通过对 T2I（Text-to-Image）生成模型中的偏见进行研究调查，揭示了存在的社会偏见对少数群体的边缘化造成的影响，并指出在研究中存在的限制和未来的研究方向。

Apr, 2024

易于访问的文本到图像生成在大规模上放大人口统计的定型观念

研究表明，现在机器学习模型能够将用户写的文本描述转换成逼真的图像，并且这些模型现在可以在线使用，每天可生成数百万张图像。然而，我们发现这些模型放大了危险和复杂的刻板印象，并且这些放大的刻板印象难以预测，用户或模型所有者也难以减轻其影响。这些图像生成模型的大规模部署是否会延续和放大刻板印象，这是非常值得关注的问题。

Nov, 2022

文本 - 图像模型对非二元性别身份的（误）表征：刻板印象与淫秽

本文旨在研究多模态模型处理不同性别认同的表现，发现某些非传统性别的个体被（误）刻画为不够人性化、更具刻板印象和性化。同时，受访者特别关注描绘的准确性，呼吁采用策展训练数据和定制化等改进措施，实现社区更广泛的参与和更积极的进步。

May, 2023