文化鸿沟导航:探索和解锁文化视角的文本到图像模型
文本到图像(T2I)生成中的一个挑战是训练数据中存在的文化差距意外反映,当输入文本的文化要素在训练集中很少收集时,这意味着生成的图像质量的不一致性;为了弥合差距,我们提出了一个全面评估标准的具有挑战性的跨文化(C3)基准,用于评估模型生成跨文化图像的适应性;通过分析 C3 基准上 Stable Diffusion 模型生成的有缺陷图像,我们发现模型常常无法生成某些文化对象;因此,我们提出一种新颖的多模态度量,考虑了对象与文本的对齐,用于筛选目标文化中的微调数据,以改进跨文化生成的 T2I 模型;实验结果表明,我们的多模态度量在 C3 基准上提供了比现有度量更强的数据选择性能,其中对象和文本的对齐至关重要;我们发布了基准,数据,代码和生成的图像,以促进未来在文化多样化的 T2I 生成方面的研究。
Jul, 2023
我们提出了一种通用方法,通过反事实推理来研究和量化任何文本到图像生成模型和任何提示的广泛偏见和偏差,并以语义概念的形式扩展了定量评分。
Dec, 2023
文本到图像生成使用神经网络和扩展模型规模的创新模型架构与预测增强技术相结合的方法,提供了几种不同的方法并对其进行了详细比较和评价,为未来的工作提供了改进的可能路径。
Sep, 2023
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
本文通过对两个流行的 T2I 模型(DALLE-v2 和 Stable Diffusion)进行广泛的自动化和人工评估实验,专注于反映出的性别、年龄、种族和地理位置之间的职业,人格特征和日常情况的生成图像,研究和量化常见的社会偏见。我们的研究结果表明,这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差,但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。
Mar, 2023
通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究,揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题,同时提出了对 CLIP 嵌入几何的令人惊讶的见解。
Oct, 2023
通过对 T2I(Text-to-Image)生成模型中的偏见进行研究调查,揭示了存在的社会偏见对少数群体的边缘化造成的影响,并指出在研究中存在的限制和未来的研究方向。
Apr, 2024
为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力,该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD),作者评估了对象、属性、样式及四种组合性维度,研究发现概念学习和保持组合性之间存在权衡。
Jun, 2023
人工智能内容生成的革命已经通过快速发展的文本到图像(T2I)扩散模型得到了加速。本研究中,我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统,并引入新的任务 —— 交互式文本到图像(iT2I),人们可以与 LLM(语言模型)进行交互,以生成、编辑、精炼高质量图片,并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型,我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs(如 ChatGPT、LLAMA、Baichuan 和 InternLM)下在多种常见场景中评估了我们的方法,证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能,同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注,并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。
Oct, 2023
本文研究了多语言文本到图像生成 (mTTI) 和神经机器翻译 (NMT) 在 mTTI 系统中的潜在作用,提出了 Ensemble Adapter 方案,通过实证研究多语言文本知识的加权和整合,以此来改善 mTTI 系统的性能,并在三个标准 mTTI 数据集上进行了评估。
May, 2023