MaGIC: 多模态导向图像修复

May, 2023

MaGIC: Multi-modality Guided Image Completion

Yongsheng Yu, Hao Wang, Tiejian Luo, Heng Fan, Libo Zhang

TL;DR本文提出了一种名为 MaGIC 的多模态引导图像补全方法，该方法不仅支持单模态引导，还能适应任意多种模态的引导，使用模态特定的 MCU-Net 注入单一信号，再通过一致性模态混合 (CMB) 方法传播梯度，实现了在没有大量参考信息的情况下的高质量图像补全。

Abstract

The vanilla image completion approaches are sensitive to the large missing regions due to limited available reference information for plausible generation. To mitigate this, existing methods incorporate the extra cue as a →

image completion multi-modality guidance mcu-net cmb

发现论文，激发创造

多模态形状补全的条件生成对抗网络

这篇论文提出了一种用多模式条件生成模型进行多维形状补全的方法，能够消除单一输出方法存在的不确定性以获得更多的结果。通过多个数据集的实验，证明了该方法的多样性和质量。

Mar, 2020

实体链接的多粒度多模态交互网络

本文提出了一种名为多维多模态交互网络（MIMIC）的框架，用于解决多模态实体链接（MEL）任务，并通过对相互作用单元和对比学习的设计，将简洁文本和隐含视觉线索的精细表示结合起来，实现了更好的性能，超过了各种最先进的基准模型。

Jul, 2023

MAGID: 生成合成多模态数据集的自动化流程

我们引入了 MAGID，一个以多模式互动系统为基础的创新框架，通过高质量且多样化的图像增强了仅有文本的对话，通过扩充图像数据库取得显著的人类评估改进。

Mar, 2024

基于协同调制的生成对抗网络进行大规模图像补全

提出了一种基于深度学习的图像补全方法，该方法通过融合条件生成和最近的无条件生成的模型结构，引入共同调制的方式来提高大规模缺失区域图像的补全质量，并使用新的 P-IDS/U-IDS 算法来提供真实图像的知觉保真度量化，综合实验数据表明，在自由形式图像补全和图像翻译方面，该方法的质量和多样性性能均优于现有方法。

Mar, 2021

缺失模态插值的统一多模态图像合成

该论文提出了一种新的统一的多模式图像综合方法，包括通过生成敌对网络从任意可用模式的组合中合成丢失的模态，并使用共性和差异敏感编码器及动态特征统一模块来提高图像合成质量和适应性，实验结果表明该方法在处理多种综合任务时具有优越的性能。

Apr, 2023

基于聚类的生成不完整图像文本聚类 (CIGIT-C)

本研究针对多模态数据，使用一种基于生成网络的不完整图文聚类方法，旨在解决实际情景中数据不完整的问题，并在公开数据集上验证了其性能优于已有方法。

Sep, 2022

一种基于扩散的多回合组合图像生成方法

本文提出了一种名为条件去噪扩散与图像组成匹配 (CDD-ICM) 的基于扩散模型的多回合组合图像生成方法，利用 CLIP 作为图像和文本编码器的主干，并在每个 M-CIG 回合中，结合门控融合机制，将参考图像和修饰文本进行组合融合，通过条件方法生成目标图像，并引入反应结果的附加图像组成匹配 (ICM) 目标来优化生成图像语义质量。同时，采用 ICM 引导和无分类器引导进一步提高性能，在 CoDraw 和 i-CLEVR 两个基准数据集上取得了最新技术水平的结果。

Apr, 2023

通过多模态遮挡视频生成实现统一的文本引导视频完成

提供了一个新的任务，即文本引导下的视频完成（TVC），并提出了一种新的模型 —— 多模式蒙版视频生成（MMVG），通过文本输入生成高质量的视频完整图像，同时满足预测，倒带和填充的条件。

Nov, 2022

文本到图像模型在视觉模态缺失的多模态学习中的应用

通过用生成式变压器填补缺失的视觉数据，我们提出了一个简单但有效的多模态学习框架 GTI-MM，以增强数据效率和模型的鲁棒性，尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析，包括模型的训练，结果显示合成图像有助于训练数据的效率，并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外，我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。

Feb, 2024

多模态医学图像分割的互补信息共学习

这篇论文介绍了一种互补信息相互学习（CIML）框架，通过数学建模和处理跨模态冗余信息的负面影响，它将多模态分割任务分解成多个子任务，并通过信息传递来从其他模态中提取信息，以有效地去除冗余信息，提高验证准确性和分割效果。

Jan, 2024