Jan, 2024

多语言文本生成图像放大了性别刻板印象,工程处理可能无助于您

TL;DR文本到图像生成模型在图像质量、灵活性和文本对齐方面取得了惊人的成果,并因此在越来越多的应用中得到了应用。然而,多语言模型与单语言模型一样存在(性别)偏见。此外,这些模型将在不同语言中提供相似的结果是一种自然预期,但事实并非如此,并存在语言之间的重要差异。因此,我们提出了一个名为 MAGBIG 的新型基准,旨在促进无性别偏见的多语言模型研究。我们通过 MAGBIG 研究多语言 T2I 模型是否放大了性别偏见。为此,我们使用多语言提示来请求某个职业或特征的人物肖像图像(使用形容词)。我们的结果不仅显示模型偏离了每个性别应具有相等生成机会的规范假设,而且在不同语言之间存在很大差异。此外,我们还研究了提示工程策略,即使用间接、中性的表述,作为这些偏见的可能补救措施。不幸的是,它们只在有限程度上有所帮助,并导致更差的文本到图像对齐。因此,这项工作呼吁在图像生成中对跨语言的多样化表示进行更多研究。