LoCo:局部受限无训练布局到图像合成
本文提出了一种名为 LocTex 的计算机视觉方法,它利用了低成本的本地化文本标注和鼠标轨迹,通过对图像和标题的对比预训练和监督跨模态关注图,从而提供粗略的本地化信号,从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化,可以转移到各种下游视觉任务中,并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍,同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下,LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。
Aug, 2021
通过将文本渲染和布局到图像生成任务融合为一个任务,本文提出了一种布局可控的文本 - 对象综合 (LTOS) 任务,旨在根据预定义的对象布局和文本内容合成具有对象和视觉文本的图像。
Apr, 2024
通过修改跨注意力矩阵,在保持图像质量的同时改进控制能力,本研究以 ControlNet 为例,研究了几种现有的跨注意力控制方法的局限性,并提出了一种新的跨注意力操纵方法,通过定位描述来实现对生成图像的精细控制。
Feb, 2024
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法,采用了粗到细的范式来实现布局规划和图像生成,并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。
Aug, 2023
本文介绍了一种新的简单而实用的任务设置:局部控制,它通过用户定义的图像条件在特定的局部区域进行控制,其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法,利用去噪过程中噪声潜变量和参数的更新,在交互注意力图中促进非控制区域的概念生成。此外,我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明,我们的方法可以在局部控制条件下合成出高质量的图像。
Dec, 2023
本文提出一种新的基于语义布局的文本到图像的分层方法,通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成,能够提高图像质量和与输入文本的语义对齐性。
Jan, 2018
通过提示文本控制生成的图像在空间布局方面存在问题,因此我们提出了一种名为布局引导技术的新方法,该方法可以改进模型的交叉注意层,以实现所需的重建方向,并成功进行了定量和定性的实验验证与扩展。
Apr, 2023
基于 T2I 扩散模型,本研究提出了一种局部感知反演(LocInv)方法,通过利用分割地图或边界框作为额外的定位先验,精确修正扩散过程中的交互关注图,使其与文本提示中的正确名词和形容词单词紧密对齐,从而实现对特定对象的细粒度图像编辑,并防止对其他区域产生不希望的改变。该方法在 COCO 数据集的子集上经过广泛评估,定量和定性地都取得了优秀的结果。
May, 2024