DiffAgent: 快速准确的文本到图像 API 选择与大型语言模型
AltDiffusion 是一种新颖的多语种 T2I 扩散模型,它支持 18 种不同语言,并且在生成高质量图像方面优于现有的 T2I 模型,尤其是在理解文化特定概念方面。
Aug, 2023
人工智能内容生成的革命已经通过快速发展的文本到图像(T2I)扩散模型得到了加速。本研究中,我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统,并引入新的任务 —— 交互式文本到图像(iT2I),人们可以与 LLM(语言模型)进行交互,以生成、编辑、精炼高质量图片,并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型,我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs(如 ChatGPT、LLAMA、Baichuan 和 InternLM)下在多种常见场景中评估了我们的方法,证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能,同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注,并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。
Oct, 2023
DiffChat 是一个新颖的方法,用于将大型语言模型(LLMs)与以 prompt 为输入的文本到图像合成(TIS)模型(例如 Stable Diffusion)进行对齐,以实现交互式图像生成。它能够根据给定的原始提示 / 图像和用户指定的指令有效地进行适当的修改并生成目标提示,从而帮助生成高质量的目标图像。DiffChat 通过收集名为 InstructPE 的指令跟踪提示工程数据集进行监督训练,提出了一个包括三个核心评估标准(美学、用户喜好和内容完整性)反馈的强化学习框架来实现这一目标。在离线采样过程中,它采用一种动态修改技术来获得更相关的正样本和更难的负样本。为了进一步提高生成图像的质量,还将内容完整性引入到值估计函数中。通过比较自动评估和人工评估,我们的方法表现出优于基准模型和强竞争对手的性能,充分证明了其有效性。
Mar, 2024
通过直接偏好优化(DPO)在完全人工智能驱动的方法中利用视觉 - 语言模型(VLM)评估图像质量,AGFSync 将 T2I 扩散模型改进,应用于 T2I 的核心模型并在 TIFA 数据集上显示出显著改善。
Mar, 2024
使用预训练扩散模型(即 Stable Diffusion [27])进行文本图像生成的新方法,通过设计和训练轻量级字符级文本编码器,以更强的文本嵌入作为条件指导,使用大规模数据集微调扩散模型,在字符级分割图的监督下实现局部注意控制,通过推断阶段的优化过程,在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术,并展示了 UDiffText 的几个潜在应用,包括以文本为中心的图像合成、场景文本编辑等。
Dec, 2023
介绍了一种信息丰富的扩散模型,名为 ParaDiffusion,用于段落到图像生成任务,通过利用大型语言模型来提升图像生成模型的语义理解能力,并在长文本语义对齐训练方面取得了优异结果。
Nov, 2023
通过使用软提示,我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型,使得可以从一组参考图像中借鉴共性,并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示,从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力,并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性,比如文本到 3D 的转换,并通过自动评估和人工评估的定量分析证明了我们方法的有效性。
Dec, 2023
本研究证明大型 T2I 扩散模型比通常认为的更加忠实,无需修改生成过程即可生成对复杂提示忠实的图像。在此基础上,提出了一个简单的管道,根据自动评分系统为文本提示生成候选图像,并选择最佳图像,同时保持可比较或更低的计算成本。
May, 2023
该研究提出了一种基于扩散的生成模型,通过设计针对迭代生成过程的特殊模型,实现了更好的文本对齐,利用不同嵌入技术对模型进行调整,实现对参考图像风格进行自适应转换,并展示了一种 “文字涂鸦” 的技术,可帮助用户控制所需的图像输出。
Nov, 2022
本文提出了一种 Simple Diffusion Adapter (SimDA) 方法,通过微调一个强大的 Text-to-Image (T2I) 模型的 24M 个参数,以高效的方式将其适应于视频生成,并使用轻量级的空间和时间适配器进行转移学习,为了达到视频的一致性还提出了一种新的潜在干扰 Attention (LSA) 方法。此外,我们还使用相似的模型架构训练了一个视频超分辨率模型,以生成高清 (1024x1024) 视频。SimDA 不仅可用于野外的 T2V 生成,还能够在 2 分钟的调整中实现一键视频编辑,以极少的可调参数来减少训练工作量。
Aug, 2023