从自然语言到可验证图像生成的视觉属性转移
本文提出了一种基于递归模型的图像生成方法,可以根据过去的指令以及当前的反馈生成背景,添加新对象,并对现有对象进行简单的变换,这是交互式生成的一个重要步骤。
Nov, 2018
开发有效的提示对于生成高质量图像的强大能力具有挑战性,因此本研究提出了PromptMagician,一个视觉分析系统,通过推荐模型和多层次可视化来帮助用户探索和优化生成图像的输入提示。研究通过用户研究和专家访谈证明了该系统的有效性和可用性,从而改善生成图文模型的创造力支持。
Jul, 2023
我们通过引入一个新颖的数据集T2D,提出了一种序列到序列模型作为未来研究的强基准,然后对这一任务进行了基准测试,希望我们的贡献能推动语言引导的设计生成的研究前进。
Nov, 2023
通过生成对抗网络(GAN)或变压器模型进行文本到图像生成。提出了一种方法,利用人工智能模型进行主题创造,并对实际绘画过程进行分类建模。通过将所有视觉元素转化为可量化的数据结构来创建图像,并与现有的图像生成算法进行语义准确性、图像可复现性和计算效率方面的有效性评估。
Dec, 2023
通过混合倡议的多模态提示工程和细化,PromptCharm系统支持初学者用户在生成图像和优化载体过程中的生成式AI领域的最新进展,并通过可视化模型注意力值进行模型解释和反馈循环以提高生成图像的质量和用户期望的符合度。
Mar, 2024
通过利用大型语言模型,在文本到图像的生成模型中改善提示-图像的一致性,我们的方法能够提高一致性得分、保持图像质量和提高生成图像与真实数据之间的相似度,为构建可靠且强大的文本到图像模型铺平了道路。
Mar, 2024
通过利用大型语言与视觉助手(LLaVA)的多模态能力,本文提出了一种增强图像-图像生成的新方法。LLaVA分析输入图像并生成文本描述,即LLaVA生成的提示。这些提示与原始图像一起输入到图像-图像生成流程中,丰富的表示指导生成过程以展现更强的输入图像相似性。广泛的实验证明了LLaVA生成的提示在促进图像相似性方面的有效性。与传统方法相比,我们观察到生成图像和输入图像之间视觉一致性的显著改进。未来的工作将探索对LLaVA提示进行微调,以更好地控制创造过程。通过在提示中提供更具体的细节,我们旨在在生成的输出中实现对原始图像的忠实性和艺术表现之间的微妙平衡。
Jun, 2024
本文通过对GenAI-Bench上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现VQAScore比先前的评估指标(如CLIPScore)明显优于人类评分,而且VQAScore可以在黑盒的基础上通过简单地对候选图像进行排名(3到9张)从而显著提高生成速度,在需要高级视觉语言推理的复合提示下,VQAScore的排名效果比其他评分方法如PickScore、HPSv2和ImageReward提高2倍至3倍。
Jun, 2024
通过引入一种基于扩散的新框架,本研究解决了现有文本生成图像模型在生成图像时与输入文本不一致的问题,通过对不一致现象进行细致分析和分类,并利用先进的语言模型提取对象、构建知识图谱,结合图像生成模型进行了准确一致的图像生成实验。
Jun, 2024