文本到图像生成对齐度评估度量 TIAM
我们通过对自动评价度量和人类模板进行广泛研究,介绍了一种综合的基于技能的基准,收集了超过 100,000 个注释,并引入了一种新的基于问答的自动评价度量,以在各种人类模板和 TIFA160 上更好地与人类评分相关联。
Apr, 2024
对文本到图像模型中的提示准确性进行基准测试,比较评估了多种提示信实度度量,发现当前的视觉语言模型基于向量的度量无法在许多困难的 T2I 模型错误情况下显着优于基于特征的度量。介绍了一套语义错误图形,TS2,用于严格判断给定的提示信实度度量指标是否能够正确地对图像进行排序和区分不同的错误节点,以期通过客观的准则更严格地比较和发展更好的 T2I 期望提示信实度度量指标。
Apr, 2024
基于信息论对齐度量的自监督微调方法对模型对齐问题进行了研究,在文字到图像生成任务中获得了与最新技术相媲美或超过的结果,并且只需要一个预训练的去噪网络来估计互信息和一个轻量级微调策略。
May, 2024
通过利用大型语言模型,在文本到图像的生成模型中改善提示 - 图像的一致性,我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度,为构建可靠且强大的文本到图像模型铺平了道路。
Mar, 2024
我们提出了一种通用方法,通过反事实推理来研究和量化任何文本到图像生成模型和任何提示的广泛偏见和偏差,并以语义概念的形式扩展了定量评分。
Dec, 2023
我们提出了一种新的后处理算法 AlignIT,该算法将感兴趣的概念的键和值与输入提示中的所有其他标记的键和值保持不变,从而解决了现有方法存在的问题,并显著提高了与输入提示的对齐性能。
Jun, 2024
Winoground-T2I 是一个用于评估 T2I 模型组成性的基准,通过包含 11K 个复杂、高质量的对比句对来进行评估,通过比较性句对来评估各种指标的可靠性,最后提供了关于指标的优点和缺点以及当前 T2I 模型在应对复杂组成类别挑战中的能力,该基准公开提供。
Dec, 2023
最近的文本到图像(T2I)模型取得了巨大的成功,并提出了许多基准来评估其性能和安全性。然而,它们只考虑了显性提示而忽视了隐性提示(暗示目标而没有明确提及)。这些提示可能摆脱安全约束,并对这些模型的应用构成潜在威胁。本文强调了 T2I 模型在隐性提示方面的现状,提出了一个名为 ImplicitBench 的基准,并对隐性提示对流行的 T2I 模型的性能和影响进行了调查。具体而言,我们设计并收集了三个方面的 2,000 多个隐性提示:一般符号、名人隐私和不适宜工作(NSFW)问题,并评估了六个知名 T2I 模型在这些隐性提示下的能力。实验结果表明:(1)T2I 模型能够准确地创建由隐性提示指示的各种目标符号;(2)隐性提示给 T2I 模型带来隐私泄露的潜在风险;(3)大多数评估的 T2I 模型中的 NSFW 约束可以通过隐性提示绕过。我们呼吁 T2I 社区更加关注隐性提示的潜力和风险,并进一步调查隐性提示的能力和影响,倡导一种平衡的方法,既发挥其益处又减轻其风险。
Mar, 2024
本文通过对两个流行的 T2I 模型(DALLE-v2 和 Stable Diffusion)进行广泛的自动化和人工评估实验,专注于反映出的性别、年龄、种族和地理位置之间的职业,人格特征和日常情况的生成图像,研究和量化常见的社会偏见。我们的研究结果表明,这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差,但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。
Mar, 2023
通过对 T2I(Text-to-Image)生成模型中的偏见进行研究调查,揭示了存在的社会偏见对少数群体的边缘化造成的影响,并指出在研究中存在的限制和未来的研究方向。
Apr, 2024