文本到图像个性化的神经时空表示
我们提出了一种有效的方法来在文本子空间中探索目标嵌入,借鉴了自我表现性特性,并提出了一种有效的选择策略来确定文本子空间的基向量。实验评估表明,所学习的嵌入不仅能够忠实地重构输入图像,还能显著改善其与新的输入文本提示的对齐性。此外,我们观察到在文本子空间中优化能够显著提高对初始词的鲁棒性,从而放宽了用户需要输入最相关初始词的约束。我们的方法为个性化文本到图像生成的更高效的表示学习打开了大门。
Jun, 2024
本文提出了一种通过生成特定概念并将其用于多个图像来提高控制能力的方法,通过仅使用文本就可以生成概念而无需从输入数据复制可视化,并通过一组比较发现我们的方法是超越仅使用文本提示的重要改进。
Mar, 2023
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
本文介绍一种基于高度个性化文本嵌入的简单而高效的方法,通过分解 CLIP 嵌入空间来实现个性化和内容操作,并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。
Mar, 2023
本文提出了一种基于语义概念空间的单次学习方法,利用自动编码器网络将深度卷积神经网络中的多层视觉特征映射到语义向量,并在语义空间中搜索相关概念,在图像特征空间中生成复杂的增强特征分布以实现更好的一次学习性能。
Apr, 2018
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023
该文提出了基于线性层的文本到概念 (text-to-concept) 方法,通过该方法,将现有的视觉编码器转化为强大的零样本分类器,并进一步提出了概念到文本 (concept-to-text) 的解码方法。
May, 2023
本文提出了一种基于编码器的文本到图像(T2I)个性化生成方法,使用一种对领域不敏感的对比度正则化技术来实现目标概念特征的高保真度,并将预测的嵌入值保持在可编辑的潜在空间区域,从而实现了基于 CLIP(一种联合学习图像和文本的新型表示方法)标记的最短距离。实验结果证明了我们方法的有效性和学习标记比未规范化模型预测的标记更具语义性的优点,并且比以前的方法更加灵活,表现出最先进的性能。
Jul, 2023