TextFusion: 揭秘文本语义在可控图像融合中的力量

Dec, 2023

TextFusion: 揭秘文本语义在可控图像融合中的力量

TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion

Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Hui Li, Xi Li...

TL;DR利用高级语义，通过视觉 - 语言模型建立文本与图像信号之间的粗粒度关联机制，并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态，提出了一种以文本为导向的融合方法，并释放了一个文本注释的图像融合数据集 IVT 来促进其实施和在研究社区的采用。大量实验证明我们的方法（TextFusion）在传统的基于外观的融合方法上始终表现优异。

Abstract

Advanced image fusion methods are devoted to generating the fusion results by aggregating the complementary information conveyed by the source images. However, the difference in the source-specific manifestation of the imaged scene content makes it difficult to design a robust and cont

image fusion higher-level semantics vision-and-language model affine fusion unit text-guided fusion

发现论文，激发创造

基于语义文本指导的降级感知与交互图像融合技术

借助语义文本引导的图像融合模型，解决了低质量原始图像的退化问题和多重主观客观需求的非交互性。通过文本语义编码和语义交互融合解码器，实现多模式图像和信息的融合，并在图像融合性能和退化处理方面具有明显优势。

Mar, 2024

基于视觉 - 语言模型的图像融合

通过利用不同源图像中的显式文本信息来指导图像融合，我们提出了一种名为 FILM 的新型图像融合范式，首次利用 ChatGPT 中的文本信息，通过交叉注意力从源图像中提取关键视觉特征，实现了更深层次的上下文理解，最终生成了融合图像。在红外 - 可见光、医学、多曝光和多焦点图像融合等四个任务中，该范式取得了令人满意的结果。我们还提出了一个基于 ChatGPT 的视觉 - 语言数据集，其中包含了十个图像融合数据集的段落描述，以促进基于视觉 - 语言模型的图像融合的未来研究。代码和数据集将会发布。

Feb, 2024

从文本到像素：一种针对红外和可见光图像融合的上下文感知语义协同解决方案

本研究提出了一种基于文本引导的多模态图像融合方法，利用文本描述的高级语义结合红外和可见光图像的语义信息，为目标检测任务提供了更准确和鲁棒的结果。通过使用代码本来增强对融合动态的简明直观表达，并通过双层优化策略同时优化融合和检测问题，本研究取得了与现有方法相比更高的检测平均精度和视觉上优越的融合结果。

Dec, 2023

一种中间融合的 ViT 在扩散模型中实现了高效的文本 - 图像对齐

通过使用中间融合机制，我们在文本生成图像任务上获得了更高的 CLIP 得分，更低的 FID，与早期融合相比减少了 20% 的运算量，并且训练速度提高了 50%。

Mar, 2024

ComFusion: 多个特定场景中的个性化主题生成单图像

最近在个性化文本到图像（T2I）扩散模型方面的进展表明，使用有限数量的用户提供的示例生成基于个性化视觉概念的图像的能力已被证明。然而，这些模型在维护高视觉保真度方面经常遇到困难，特别是在根据文本输入进行场景操作时。为了解决这个问题，我们引入了 ComFusion，这是一种新颖的方法，利用预训练模型生成几个用户提供的主题图像和预定义文本场景的组合，有效地将视觉主题实例与文本特定场景融合，从而在多样的场景中生成高保真度的实例。ComFusion 整合了一种类别场景先验保留正则化方法，利用预训练模型的组合主题和场景特定知识，增强了生成的保真度。此外，ComFusion 使用粗糙生成的图像，确保它们与实例图像和场景文本有效对齐。因此，ComFusion 在捕捉主题的本质和保持场景保真度之间保持了一个微妙的平衡。对 T2I 个性化中的各种基线进行了广泛评估，证明了 ComFusion 在定性和定量上的优越性。

Feb, 2024

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

视觉文本与低层次视觉：关于视觉文本处理的综合调查

通过多透视的分析，该研究综述了视觉文本处理领域的最新进展，从文本图像增强和恢复到文本图像操作的层次性分类，再到不同学习范式。同时，讨论了如何将特定的文本特征，如结构、笔画、语义、风格和空间背景，无缝地整合到各种任务中，并在几个广泛使用的数据集上对方法进行了测试和评估。最后，确定了未来研究的主要挑战和潜在途径，旨在确立该综述作为一个基础资源，促进视觉文本处理领域的持续探索和创新。

Feb, 2024

MaxFusion: 文本 - 图像扩散模型中的即插即用多模态生成

本研究提出了一种名为 MaxFusion 的新策略，通过合并多个模型的对齐特征，为扩展到新模态条件的基于文本到图像生成模型提供了一个高效的伸缩方法。

Apr, 2024

X&Fuse: 文字图像生成中的视觉信息融合

介绍了一种能够在生成图像时根据视觉信息进行条件控制的通用方法 X&Fuse，其在三种不同的文本图像生成场景中展现了其潜力：通过召回与相关图像有关的图像（Retrieve＆Fuse），利用被剪裁对象图像进行主体驱动生成（Crop＆Fuse），和直接访问图像场景（Scene＆Fuse），同样有效。

Mar, 2023

复杂文本指令下的交互式图像操作

本研究提出了一种基于复杂文本描述的图像编辑方法，在文本相关部分对输入的图像进行修改，并引入用户界面对生成的图像进行交互式重新修改，实现实时交互、灵活和准确的图像操作。

Nov, 2022