X&Fuse: 文字图像生成中的视觉信息融合

Mar, 2023

X&Fuse: 文字图像生成中的视觉信息融合

X&Fuse: Fusing Visual Information in Text-to-Image Generation

Yuval Kirstain, Omer Levy, Adam Polyak

TL;DR介绍了一种能够在生成图像时根据视觉信息进行条件控制的通用方法 X&Fuse，其在三种不同的文本图像生成场景中展现了其潜力：通过召回与相关图像有关的图像（Retrieve＆Fuse），利用被剪裁对象图像进行主体驱动生成（Crop＆Fuse），和直接访问图像场景（Scene＆Fuse），同样有效。

Abstract

We introduce X&Fuse, a general approach for conditioning on visual information when generating images from text. We demonstrate the potential of X&Fuse in three different text-to-image generation scenarios. (i) W

text-to-image conditioning visual information image generation zero-shot

发现论文，激发创造

一种中间融合的 ViT 在扩散模型中实现了高效的文本 - 图像对齐

通过使用中间融合机制，我们在文本生成图像任务上获得了更高的 CLIP 得分，更低的 FID，与早期融合相比减少了 20% 的运算量，并且训练速度提高了 50%。

Mar, 2024

TextFusion: 揭秘文本语义在可控图像融合中的力量

利用高级语义，通过视觉 - 语言模型建立文本与图像信号之间的粗粒度关联机制，并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态，提出了一种以文本为导向的融合方法，并释放了一个文本注释的图像融合数据集 IVT 来促进其实施和在研究社区的采用。大量实验证明我们的方法（TextFusion）在传统的基于外观的融合方法上始终表现优异。

Dec, 2023

Lafite2: 少样本文本到图像生成

本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法，通过检索和优化过程综合生成伪文本特征，可以灵活应用于各种情境和模型，并在实验中表现出显著的效果，GAN 模型在完全监督的情况下得到了 6.78 的 FID，是 GAN 最新的 SoTA 结果。

Oct, 2022

用于文本到图像扩散模型的零样本空间布局调节

使用文本生成图像的方法已显著提高了生成图像建模的状态，通过结合自然语言界面和空间控制，在本文中，我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题，并提出了 ZestGuide，这是一种零 - shot 分割指导方法，可插入预先训练的文本到图像扩散模型中，我们的实验结果表明，在精准对齐所需的输入分割的情况下，与使用相应分割进行训练的组件相比，提高了图像质量，而在 COCO 数据集上，我们的结果比 Paint with Words 更好。

Jun, 2023

ComFusion: 多个特定场景中的个性化主题生成单图像

最近在个性化文本到图像（T2I）扩散模型方面的进展表明，使用有限数量的用户提供的示例生成基于个性化视觉概念的图像的能力已被证明。然而，这些模型在维护高视觉保真度方面经常遇到困难，特别是在根据文本输入进行场景操作时。为了解决这个问题，我们引入了 ComFusion，这是一种新颖的方法，利用预训练模型生成几个用户提供的主题图像和预定义文本场景的组合，有效地将视觉主题实例与文本特定场景融合，从而在多样的场景中生成高保真度的实例。ComFusion 整合了一种类别场景先验保留正则化方法，利用预训练模型的组合主题和场景特定知识，增强了生成的保真度。此外，ComFusion 使用粗糙生成的图像，确保它们与实例图像和场景文本有效对齐。因此，ComFusion 在捕捉主题的本质和保持场景保真度之间保持了一个微妙的平衡。对 T2I 个性化中的各种基线进行了广泛评估，证明了 ComFusion 在定性和定量上的优越性。

Feb, 2024

基于场景图的图像 - 文本检索融合网络

本研究提出了一种基于场景图融合网络的图像 - 文本检索方法，通过内部和交叉模态融合来增强图像 / 文本特征，并采用层次化的融合注意力来将语义信息嵌入到图像 / 文本特征向量之中，进而进行图像 - 文本的检索任务。实验结果表明，本方法相比其他现有技术，在公开数据集 Flickr30K 和 MSCOCO 上取得了更好的效果。

Mar, 2023

CrossFuse：一种基于交叉注意力机制的红外和可见光图像融合新方法

提出了一种新颖的跨模态注意机制（CAM）来增强互补信息，并提出了基于两阶段训练策略的融合方案，实验结果表明我们提出的融合方法在融合网络中获得了 SOTA 级别的性能。

Jun, 2024

从文本到像素：一种针对红外和可见光图像融合的上下文感知语义协同解决方案

本研究提出了一种基于文本引导的多模态图像融合方法，利用文本描述的高级语义结合红外和可见光图像的语义信息，为目标检测任务提供了更准确和鲁棒的结果。通过使用代码本来增强对融合动态的简明直观表达，并通过双层优化策略同时优化融合和检测问题，本研究取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。

Dec, 2023

基于语义文本指导的降级感知与交互图像融合技术

借助语义文本引导的图像融合模型，解决了低质量原始图像的退化问题和多重主观客观需求的非交互性。通过文本语义编码和语义交互融合解码器，实现多模式图像和信息的融合，并在图像融合性能和退化处理方面具有明显优势。

Mar, 2024

CapsFusion: 大规模重塑图像 - 文本数据

为了提供更高质量和更可扩展的多模态预训练数据，我们提出了 CapsFusion，一种先进的框架，利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明，CapsFusion 字幕在模型性能（例如，COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8％和 18.3％）、样本效率（比基准计算需求少 11-16 倍）、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。

Oct, 2023