- MUMU:从文本到图像数据引导多模态图像生成
我们训练了一个模型,从混合了文本和图片的多模态提示中生成图片,例如 “一个 < 图片里有一个男人> 男人和他的 <图片里有一只狗> 狗以 <图片里有一只卡通> 动画风格画的。” 我们通过从合成生成的和公开可用的文本 - 图片数据的图像标题中 - 一种统一的框架用于整合 LLMs、知识图谱和可控扩散模型的一致性图像生成(PCIG)
通过引入一种基于扩散的新框架,本研究解决了现有文本生成图像模型在生成图像时与输入文本不一致的问题,通过对不一致现象进行细致分析和分类,并利用先进的语言模型提取对象、构建知识图谱,结合图像生成模型进行了准确一致的图像生成实验。
- 通过注意力引导的特征增强修复文本到图像扩散模型中的灾难性忽视
基于文本的图像扩散模型(T2I DMs)能够从文本描述中生成高质量的图像,但这些模型常常产生与输入提示不完全一致的图像,其中最突出的问题是灾难性忽视,即 T2I DMs 生成的图像丢失了提示中提到的关键对象。我们首先对这个问题进行了实证研究 - CVPR残疾视角:发现自动图像生成的偏见
通过综合实验,研究发现当前普遍的图像生成模型在描绘残障人士时存在明显的偏见,通常将他们描绘为年长、悲伤,并主要使用手动轮椅,因此迫切需要更具包容性的 AI 开发,确保生成的图像中残障人士能够得到多样化和准确的呈现,以解决和减轻 AI 模型中 - GenAI-Bench: 评估和改进文本到视觉生成能力
本文通过对 GenAI-Bench 上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现 VQAScore 比先前的评估指标(如 CLIPScore)明显优于人类评分,而且 VQAScore 可 - 地理差异在文本到图像模型中的分解评估
地理差异图像生成任务中的 Decomposed-DIG 指标通过量化对象和背景的差异,揭示了生成图像中地理上的差异。研究发现背景生成中的地理差异明显大于对象生成,并提出了一种新的提示结构以优化背景多样性。
- ARTIST: 复杂文本图像生成的解耦改进
通过引入一个专门关注文本学习的新框架 ARTIST,有助于提升扩散模型在生成富文本图像时的文本渲染能力,并利用预训练的大型语言模型来解释用户意图,提高生成质量。在 MARIO-Eval 基准测试上的实证结果表明,该方法在各种度量标准上的性能 - 无向量量化的自回归图像生成
我们提出了使用扩散过程模型每个令牌的概率分布,从而可以将自回归模型应用于连续值空间的方法,并通过定义扩散损失函数来替代离散化的令牌化。通过消除向量量化,我们的图像生成器在享受序列建模的速度优势的同时取得了强大的结果,并希望该方法能促进在其他 - EMMA: 您的文本到图像扩散模型可秘密接受多模态提示
EMMA 是一个创新的图像生成模型,通过多模态特征连接器设计将文本与其他模态信息有效地整合,以实现个性化和情境感知图像和视频的生成。EMMA 模块的学习和组装使其成为一种灵活且有效的解决方案,用于高保真度和详细程度较高的多模态条件图像生成任 - 一个 GPU 足够吗?用基础模型推动更高分辨率的图像生成
通过使用单个 GPU,本文介绍了一种名为 Pixelsmith 的零样本文本到图像生成框架,可以在更高的分辨率下采样图像,同时不增加额外成本。实验结果表明 Pixelsmith 不仅在质量和多样性上超过现有技术,还减少了采样时间和伪影。
- 自回归模型胜过扩散模型: Llama 用于可扩展图像生成
LlamaGen 是一种新型的图像生成模型家族,采用大型语言模型中的原始 “下一个标记预测” 范例应用于视觉生成领域,不附带对视觉信号的归纳偏见,可以在适当缩放的情况下实现最先进的图像生成性能。
- 优化眼科医生:通过稀疏生成器在初始化期间找到图像先验
介绍了一种用于修剪和训练深度图像生成网络的最佳眼科医生 (Optimal Eye Surgeon, OES) 框架,使用自适应修剪网络的方法,实现低频图像组件和去噪图像的生成。
- 基于遗传算法的生成对抗网络损失函数及其在医学应用中的重点研究
GANetic loss 通过优化问题解决了 GAN 中的有效损失函数设计,成功提升了生成模型的稳定性和性能,并在图像生成和异常检测等应用中表现出色。
- ReDistill: 残差编码蒸馏 用于峰值内存减少
通过对神经网络进行峰值内存降低,我们提出了残差编码蒸馏(ReDistill)技术来在边缘设备上部署具有有限内存预算的神经网络。我们的方法不仅适用于图像分类问题,而且在基于扩散的图像生成中也有出色表现。
- Flash Diffusion: 加速任何有条件扩散模型的少步图像生成
本论文提出了一种高效、快速和多功能的蒸馏方法,Flash Diffusion,用于加速预训练扩散模型的生成,在 COCO2014 和 COCO2017 数据集上,在少量步骤的图像生成方面表现出最先进的 FID 和 CLIP-Score 性能 - $Δ$-DiT:一种为扩散变换器量身定制的无需训练的加速方法
通过调查 DiT 块与图像生成之间的相关性,发现 DiT 的前述块与生成图像的轮廓有关,而后述块与细节有关。基于此,我们提出了一个全面的无需训练的推断加速框架 Delta-DiT,采用设计的缓存机制来加速早期采样阶段的后述 DiT 块和后期 - SceneTextGen: 使用扩散模型的无局限布局的场景文字图像合成
SceneTextGen 是一种基于扩散模型的新颖方法,通过集成具有详细排版属性的字符级编码器,字符级实例分割模型和词级定位模型,以实现更自然和多样化的文本生成,从而提高了生成图像上的字符识别率。
- 使用扩展的注意力实现视频中的时态一致的对象编辑
使用预训练的图像修复扩散模型,通过替换自注意力模块以创建帧级依赖关系,我们提出了一种编辑视频的方法,以确保编辑信息在所有视频帧中保持一致,从而在对象重定向、对象替换和对象移除等多个视频编辑任务中展示了该策略的卓越性能。
- Kaleido 扩散:通过自回归潜在建模改进条件扩散模型
Kaleido 是一种改进图像生成多样性的方法,它利用自回归潜变量先验来增加样本的多样性,通过整合自回归语言模型编码原始说明并生成潜变量,以作为抽象和中间表示来指导和促进图像生成过程,从而提供更多样化的输出。
- 微小预训练数据的损坏改进扩散模型
通过对扩散模型(DMs)预训练数据的综合研究,发现轻微的破坏性改变可以显著提高 DMs 生成图像的质量和多样性,同时介绍了一种简单的方法 —— 条件嵌入扰动(CEP),可大幅改善 DMs 在预训练和后续任务中的性能。