从自然语言到可验证图像生成的视觉属性转移
该论文提出一种有效的方法,将文本到图像的生成与视觉问答相结合,利用 VQA 2.0 数据集来提高生成图像的图像质量和图像文本对齐,通过生成问题与答案对的额外训练样本,并采用标准的 VQA 模型,提供 T2I 模型的辅助学习信号,鼓励从 QA 对生成的图像看起来更加逼真,并最小化外部 VQA 损失。该方法可以成功提高 T2I 综合的效果,使 FID 从 27.84 降至 25.38,R-prec 从 83.82%提高至 84.79%。
Oct, 2020
本文提出了一个通用的交互式故事可视化系统,该系统涵盖了故事到提示生成,文本到布局生成,可控文本到图像生成和图像到视频动画四个组件,允许用户处理多个新角色和灵活修改布局与结构。
May, 2023
通过利用三层艺术理论的建议,我们提出了一种用于抽象概念的文本到图像生成的框架,该框架通过将抽象概念转化为明确的意图、从 LLMs 中提取的语义相关的物体和依赖于概念的形式来生成图像。人类评估结果和我们设计的概念评分指标的评价结果证明了我们的框架在表达抽象概念方面的有效性。
Sep, 2023
通过利用大型语言模型,在文本到图像的生成模型中改善提示 - 图像的一致性,我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度,为构建可靠且强大的文本到图像模型铺平了道路。
Mar, 2024
通过针对 prompt 模板的新度量方法,本文对多种 Text-to-Image(T2I)模型的对齐性进行了研究,并发现潜在噪声和提示概念数量、顺序和属性等因素对图像生成的影响。
Jul, 2023
本文提出了两个基于语言模型的可解释 / 可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen 将 T2I 生成拆分成三个步骤,使用 LM 控制前两个步骤,并提供更强的空间控制;VPEval 是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。
May, 2023
通过人类反馈信号提高图像生成质量,结合文本到图像生成模型和基于强化学习的人类反馈,标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词,使用多模态变换器自动预测反馈,进一步改进图像生成方法。
Dec, 2023
人工智能内容生成的革命已经通过快速发展的文本到图像(T2I)扩散模型得到了加速。本研究中,我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统,并引入新的任务 —— 交互式文本到图像(iT2I),人们可以与 LLM(语言模型)进行交互,以生成、编辑、精炼高质量图片,并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型,我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs(如 ChatGPT、LLAMA、Baichuan 和 InternLM)下在多种常见场景中评估了我们的方法,证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能,同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注,并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。
Oct, 2023
最近的文本到图像 (T2I) 模型在大规模和高质量数据的帮助下,展现出令人印象深刻的性能,然而,这些 T2I 模型在生成具有美感、几何精确、忠实于文本和具有良好低级质量的图像方面仍然存在困难。我们提出了 VersaT2I,这是一个多功能的训练框架,可以通过多个奖励机制提高任何 T2I 模型的性能。我们将图像的质量分解为几个方面,例如美学、文本 - 图像对齐、几何、低级质量等。然后,对于每个质量方面,我们选择模型生成的该方面的高质量图像作为训练集,使用低秩自适应 (LoRA) 来微调 T2I 模型。此外,我们引入了一个门控函数,用于结合多个质量方面,以避免不同质量方面之间的冲突。我们的方法易于扩展,不需要任何手动注释、强化学习或模型架构更改。大量实验证明,VersaT2I 在各种质量标准上优于基线方法。
Mar, 2024