多分辨率文本反演
Multi-Concept Prompt Learning introduces a framework to learn multiple object-level concepts simultaneously, enhancing word-concept correlation and enabling the generation of novel synthesised images through Textural Inversion.
Oct, 2023
本文提出了一种基于进化策略的梯度自由框架,用于优化文本反演的过程,试图解决个性化文本生成中因梯度下降算法的内存消耗大、部署复杂等问题。实验结果表明,采用该方法生成的文本图像与采用梯度下降方法生成的相比,性能几乎没有损失,但能够获得更高的计算效率和更广泛的适用性。
Apr, 2023
该研究介绍了一种名为 Lego 的文本反演方法,用于从少量示例图像中反演与主体相关的概念。Lego 通过简单而有效的主体分离步骤以及引导单 / 多嵌入概念反演的上下文损失,成功实现了对这些概念的反演。在深入的用户研究中,与基准方法相比,Lego 生成的概念有超过 70% 的受试者更喜欢。此外,使用大型语言模型进行视觉问题回答的结果表明,Lego 生成的概念与文本描述更加一致。
Nov, 2023
基于 T2I 扩散模型,本研究提出了一种局部感知反演(LocInv)方法,通过利用分割地图或边界框作为额外的定位先验,精确修正扩散过程中的交互关注图,使其与文本提示中的正确名词和形容词单词紧密对齐,从而实现对特定对象的细粒度图像编辑,并防止对其他区域产生不希望的改变。该方法在 COCO 数据集的子集上经过广泛评估,定量和定性地都取得了优秀的结果。
May, 2024
Text-to-image customization using RealCustom disentangles similarity from controllability by limiting subject influence, achieved through a train-inference decoupled framework, resulting in unprecedented similarity of given subjects and controllability of given text.
Mar, 2024
此篇论文提出了基于文本反转和自监督改进 (TISR) 的方法,通过解决编码器和解码器网络结构的问题,克服了模态差异和报告内容限制,实现了文本和图像在同一空间中的表示,通过对图像和文本之间的对比损失计算来改进生成的报告的准确性。该方法与现有方法独立且易于使用,通过在两个常用公开数据集上的实验,取得了显著的改进效果,展示了 TISR 的有效性和普适性。
May, 2024
使用文本到图像模型生成一致的多尺度内容,实现从广角景观到细节的极端语义缩放,通过联合多尺度扩散采样方法,保持不同尺度之间的一致性,并与传统的超分辨率方法进行对比,显示出在生成一致的多尺度内容方面,该方法最为有效。
Dec, 2023