Sep, 2022

利用文化偏见在文本到图像合成中的同形字攻击

TL;DR通过在文本描述中插入单个非拉丁字符,我们展示了普通模型如何反映文化刻板印象和偏见。我们定性和定量分析了这种行为,并将其归因于模型的文本编码器。此外,我们提出了一种新颖的同形学习方法,通过微调文本编码器,使其能够抵抗同形符号的操纵.