MaxFusion: 文本 - 图像扩散模型中的即插即用多模态生成

Apr, 2024

MaxFusion: 文本 - 图像扩散模型中的即插即用多模态生成

MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models

Nithin Gopalakrishnan Nair, Jeya Maria Jose Valanarasu, Vishal M Patel

TL;DR本研究提出了一种名为 MaxFusion 的新策略，通过合并多个模型的对齐特征，为扩展到新模态条件的基于文本到图像生成模型提供了一个高效的伸缩方法。

Abstract

Large diffusion-based Text-to-Image (T2I) models have shown impressive generative powers for text-to-image generation as well as spatially conditioned image generation. For most applications, we can train the mod

diffusion-based text-to-image models generative powers maxfusion modality conditions

发现论文，激发创造

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

一种中间融合的 ViT 在扩散模型中实现了高效的文本 - 图像对齐

通过使用中间融合机制，我们在文本生成图像任务上获得了更高的 CLIP 得分，更低的 FID，与早期融合相比减少了 20% 的运算量，并且训练速度提高了 50%。

Mar, 2024

文本到图像扩散的多概念自定义

本文介绍了一种基于 Custom Diffusion 的文本到图像生成模型，只需少量优化参数即可表示新概念并实现快速调整，还可以通过约束优化共同训练多个概念或组合多个微调模型，并在新颖的环境中将多个概念无缝组合生成，此方法在记忆和计算效能方面都占有优势。

Dec, 2022

多功能扩散模型：文字、图像和变体都在一个模型中

本研究扩展现有单流程扩散管线到多任务多模态网络，通过可共享、可交换的多流程跨模式模块，将文本到图像、图像到文本等多流和变异处理统一在一个模型中，实现了风格和语义的解耦、双重和多重上下文混合等并发处理。实验证明，该框架性能优越，可启发基于扩散的通用人工智能研究。

Nov, 2022

通过扩散模型的类间图片混合提升图像分类

通过 Diff-Mix 方法进行图像翻译以实现数据增强，实现更好的忠实度和多样性平衡，从而在各种图像分类场景中显著提高性能。

Mar, 2024

通过混合掩膜信息融合提升文本到图像编辑

基于扩散模型，本文旨在系统性地改进文本引导的图像编辑技术，以解决其局限性，通过在模型的自注意机制中引入人为注释来限制编辑范围，并将编辑后的图像与源图像和构建的中间图像进行融合，实验证明所提出的 ``MaSaFusion'' 显著提高了现有的文本到图像编辑技术。

May, 2024

面向多模态生成的生成人工智能系统影响

对新兴的多模态文本到图像和文本到视频工作负载进行深入的系统性能表征是设计高效和可部署系统的关键第一步。

Dec, 2023

TexFusion：使用文本引导的图像扩散模型合成 3D 纹理

TexFusion（纹理扩散）是一种新的方法，利用大规模的文本引导图像扩散模型，对给定的三维几何图形进行纹理合成。

Oct, 2023