基于连续语言指令的图像生成和修改
Muse是一种基于遮蔽建模任务在离散令牌空间中训练的文本到图像Transformer模型,借助预训练的大型语言模型,实现了高度还原原始文本意图的图像生成能力,同时也能够直接应用于图像编辑等任务。
Jan, 2023
本研究提出一种自然语言到有效图像生成(NL2VI)的方法,将自然提示转换为更适合图像生成的可视提示。通过实验,将自然提示与图像生成对齐可以提高生成图像的一致性,尤其在烹饪和DIY等领域具有广泛的推广和应用。
May, 2023
本文提出了两个基于语言模型的可解释/可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen将T2I生成拆分成三个步骤,使用LM控制前两个步骤,并提供更强的空间控制;VPEval是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。
May, 2023
该论文提出了一种新的通信系统框架,利用多模式生成模型的优势生成有前途的代沟能力。我们的主要研究方向是基于图像到文本转换和顺序传输单词令牌的通信系统设计,旨在为实际通信系统利用最先进的生成模型铺平新的道路。
Sep, 2023
现有的文本到图像生成模型在不同语境中生成相同外观的对象方面存在困难,本论文介绍了一种名为ObjectComposer的方法,通过不修改底层模型的权重,训练了一种无需fine-tuning的方法,可一次生成多个特定对象的组合。
Oct, 2023
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础,该模型通过两个阶段的操作实现,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性,从而在生成复杂的场景时展现出比传统扩散模型更好的召回率,经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。
Oct, 2023
改进了LenCom-Eval和MARIO-Eval基准测试的OCR效果的训练自由框架, 提供了生成包含长且少见文本序列图像的新方法。
Mar, 2024
通过将潜在扩散模型与大型语言模型结合,我们提出了一种生成一致图像序列的方法,用于配合多步骤的指南,并在人类参与实验中被46.6%的人选择为最佳方法,同时自动评价指标表明该方法在两个领域中能够维持语义连贯性和视觉一致性。
May, 2024
该论文提出了一种简单的、无需训练的框架,通过整合文本理解和图像生成,解决了在生成视觉指令中保持物体的一致性和平滑状态转换的问题,实验证明该方法可以生成一致且具有视觉吸引力的指令。
Jun, 2024
通过引入一种基于扩散的新框架,本研究解决了现有文本生成图像模型在生成图像时与输入文本不一致的问题,通过对不一致现象进行细致分析和分类,并利用先进的语言模型提取对象、构建知识图谱,结合图像生成模型进行了准确一致的图像生成实验。
Jun, 2024