DiffSketcher:基于潜在扩散模型的文本引导矢量素描综合
本文提出了一种新的引导图像合成框架,该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时,本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系,用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。
Nov, 2022
该研究论文探讨了基于图像引导的扩散模型在参考图像引导下的素描着色,并提出了两种使用不同图像特征作为条件输入的变种隐式扩散模型,以及相应的调整结果方法。通过定性和定量实验以及用户研究,全面评估了这些模型的性能。
Jan, 2024
本文提出了一种基于草图向量的条件扩散模型(SketchFFusion),用于实现基于用户提供的草图信息进行局部细节微调的图像编辑,并展示了其优于现有方法的生成性能。
Apr, 2023
SVGDreamer 是一种新颖的文本引导的矢量图合成方法,通过语义驱动的图像矢量化过程和基于注意力的原语控制,与基线方法相比,在可编辑性、视觉质量和多样性方面表现出更高的优越性。
Dec, 2023
本文提出了一种基于素描和文本引导的彩色点云生成概率扩散模型,通过结合物体的手绘素描和文本描述,联合进行去噪过程,逐步扩散点坐标和颜色值以达到高斯分布,从而产生所需形状和颜色的彩色点云生成结果。
Aug, 2023
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
这篇论文首次探索了用于零样本基于草图的图像检索的文本到图像扩散模型,发现其能够无缝地弥合草图与照片之间的差距,利用交叉模态能力和形状倾向性,通过我们的初步研究得到验证。为了有效利用预训练的扩散模型,我们引入了一种简单而有效的策略,着重于两个关键方面:选择最佳特征层和利用视觉和文本提示。通过识别最丰富信息且最适合特定检索要求(分类级别或细粒度)的层,然后使用视觉和文本提示来引导模型的特征提取过程,使其生成更具辨别力和相关上下文的交叉模态表示。在几个基准数据集上进行的大量实验证实了显著的性能提升。
Mar, 2024
通过与文本交互的过程,本文提出了一种名为 SketchDreamer 的方法,利用基于像素表示的图像的文本条件扩散模型训练来生成受控素描,并使文本和素描能够相互作用,以实现非专业用户创作素描,并将叙述扩展为故事板。
Aug, 2023
提出了一种基于多输入用户素描图的图像合成模型,可以使用户编辑或完整地生成所需的具有结构和内容的图像,通过实验证明了该模型能够在图像合成和编辑方面提供独特的用例。
Mar, 2023