- 一步文本图像生成中的长短导向分数身份蒸馏
通过发展长短分类器无指导(LSG)的方法,我们改进了基于得分身份蒸馏(SiD)的稳定扩散模型,该模型在不使用真实训练数据的情况下,通过单步生成器合成的虚假图像进行培训,迅速提高了 FID 和 CLIP 得分,实现了最先进的 FID 性能,并 - 跨模态上下文学习实现多模态生成
本研究提出了一种利用大型语言模型和扩散模型的多模式生成方法(MGCC),通过在 LLM 嵌入空间中显式学习文本和图像之间的跨模式依赖关系以及生成特定于多物体场景的对象边界框,实现了从复杂的多模式提示序列中生成新图像的能力,并在两个基准数据集 - 文本到图像生成 AI 系统的自动越狱
最近的 AI 系统在各种任务上展现了极强的性能,甚至超过了人类的表现,包括基于大型语言模型(LLMs)的信息检索、语言生成和图像生成。然而,由于绕过 LLMs 的对齐而产生恶意内容的各种安全风险,通常被称为越狱,而以文本为基础的 LLMs - 侧化 MLP:扩散的简单脑启发架构
基于大脑侧化的灵感,我们提出了一种简单而有效的架构 L-MLP,它基于多层感知器并在处理数据维度时进行排列、并行处理和合并,通过连接的 MLP 传递。我们发现这种设计优于其他 MLP 变体,在挑战性的扩散任务中与基于 Transformer - SG-Adapter:使用场景图引导增强文本到图像生成
通过引入场景图适配器(SG-Adapter)来纠正原始文本嵌入中的不准确性,使生成的图像与复杂情境中的多个对象和关系的人类预期保持一致。
- 探索文本到图像扩散模型的工作机制
通过研究强潜在扩散概率模型在 T2I 生成过程中的中间状态,发现图像在早期生成阶段主要由文本引导完成,之后概率模型通过自身信息来完善生成图像的细节,并进一步提出了去除文本引导以加速 T2I 生成过程的方法,加速效果达到 25%+
- 课程定向优化策略:扩散和一致性模型
该论文介绍了一种基于课程学习的新颖增强版 Direct Preference Optimization(DPO)方法,用于文本到图像生成,在三个基准测试中胜过了其他方法,包括文本对齐、美学和人类首选项等方面。
- 大语言模型驱动的文本到图像生成的实证研究与分析
本研究探讨使用大型语言模型作为文本编码器,在文本到图像生成中提高语言理解能力,并提出了一种高效三阶段训练流程以整合已有的文本到图像模型和大型语言模型,通过轻量级适配器实现快速训练,并证明实验结果在多语言和长输入环境下获得了优秀的图像生成质量 - 提高人脸生成质量及配套使用合成字幕
通过引入一种无需训练的流程,从人脸图像生成真实的外貌描述,进而改进了文本到图像扩散模型的能力,并提高了其遵循给定提示的能力。
- VirtualModel:通过扩散模型生成具有对象识别保持性的人 - 对象互动图片以用于电子商务营销
本文提出了一种用于电子商务营销的虚拟模型框架,旨在生成与产品完全一致的人物图像,并增强人物与产品的合理性和真实性。
- 无需训练的增强主体注意力引导的文本到图像生成
我们提出了一种主题驱动的生成框架,通过介入生成过程中的推理时间,强化注意力图,实现精确的属性绑定和特征注入,展示了卓越的零次生成能力,尤其在组合生成的挑战性任务中。
- 图像智能描述技术研究与应用
通过精细图像描述训练视觉语言模型的框架和数据集的介绍,验证了其在数据质量和与先前工作的比较中的优势,并展示了模型在生成最接近原始图像的描述以及在多个数据集上的表现优势。
- PuLID:通过对比对齐实现纯净且高效的身份验证定制
我们提出了纯净和闪电身份自定义(PuLID),一种用于文本到图像生成的新型无需调整的自定义方法。通过将 Lightning T2I 分支与标准扩散模型相结合,PuLID 引入了对比对齐损失和准确的身份损失,最大程度地减少对原始模型的干扰,并 - GLoD:图像生成中的全局上下文与局部细节组合
Global-Local Diffusion (GLoD) 是一个允许同时控制全局背景和局部细节的文本到图像生成框架,通过分配多个全局和局部提示,并利用预训练扩散模型的噪声进行去噪过程来实现。定量和定性评估表明,GLoD 能够有效生成复杂的 - 通过注意力调节改进文本到图像生成对齐
通过注意力机制的调节,我们提出了一种用于扩散模型的无需训练的逐阶段聚焦机制,旨在解决多实体和属性的文本提示处理中的注意力分布不均问题。我们的实验结果证明,我们的模型在各种情况下都能够以最小的计算成本实现更好的图像与文本的对齐。
- TextCenGen:面向文本到图像生成的注意力导向的文本中心背景适应
TextCenGen 是一种新的文本图像生成方法,采用了力导向注意力引导模型,以生成更具和谐感的文字图像布局。在图形设计方面的实验结果显示,TextCenGen 相较于传统方法在布局上更出色,同时在特定文本位置的数据集上也显著提高了 Tex - CVPREdgeFusion:设备端文本到图像生成
通过对稳定扩散(SD)的高效计算负担进行改进,我们提出了两种策略,即利用先进的生成模型和为 LCM 定制的先进蒸馏流程,通过量化、剖析和资源有限的边缘设备上的部署,实现了在仅两步、低于一秒的延迟下,生成具有照片写实风格、与文本对齐的图像。
- SmartControl:增强控制网络以处理复杂视觉环境
通过设计一种名为 SmartControl 的新型 T2I 生成方法,我们解决了现有 T2I 生成模型中存在的问题,该方法通过放松与文本提示冲突的区域的视觉条件,从而调整图像的粗略视觉条件,使之与文本提示相适应,并在四种典型的视觉条件类型上 - Mask-ControlNet:使用额外掩码提示的高品质图像生成
通过引入额外的掩码提示 Mask-ControlNet,本研究在文本到图像生成方面取得了较好的性能,改善了前景与背景之间复杂关系的准确性,提升了生成图像的质量。
- CVPR概念编织者:在文本与图像模型中实现多概念融合
该论文介绍了一种在推导阶段用于组合定制化的文本到图像扩散模型的方法 ——Concept Weaver。该方法将过程分为两个步骤:创建与输入提示语义对齐的模板图像,然后使用概念融合策略个性化该模板。研究结果表明,与替代方法相比,我们的方法能够