MaGIC: 多模态导向图像修复
这篇论文提出了一种用多模式条件生成模型进行多维形状补全的方法,能够消除单一输出方法存在的不确定性以获得更多的结果。通过多个数据集的实验,证明了该方法的多样性和质量。
Mar, 2020
本文提出了一种名为多维多模态交互网络(MIMIC)的框架,用于解决多模态实体链接(MEL)任务,并通过对相互作用单元和对比学习的设计,将简洁文本和隐含视觉线索的精细表示结合起来,实现了更好的性能,超过了各种最先进的基准模型。
Jul, 2023
我们引入了 MAGID,一个以多模式互动系统为基础的创新框架,通过高质量且多样化的图像增强了仅有文本的对话,通过扩充图像数据库取得显著的人类评估改进。
Mar, 2024
提出了一种基于深度学习的图像补全方法,该方法通过融合条件生成和最近的无条件生成的模型结构,引入共同调制的方式来提高大规模缺失区域图像的补全质量,并使用新的 P-IDS/U-IDS 算法来提供真实图像的知觉保真度量化,综合实验数据表明,在自由形式图像补全和图像翻译方面,该方法的质量和多样性性能均优于现有方法。
Mar, 2021
该论文提出了一种新的统一的多模式图像综合方法,包括通过生成敌对网络从任意可用模式的组合中合成丢失的模态,并使用共性和差异敏感编码器及动态特征统一模块来提高图像合成质量和适应性,实验结果表明该方法在处理多种综合任务时具有优越的性能。
Apr, 2023
本研究针对多模态数据,使用一种基于生成网络的不完整图文聚类方法,旨在解决实际情景中数据不完整的问题,并在公开数据集上验证了其性能优于已有方法。
Sep, 2022
本文提出了一种名为条件去噪扩散与图像组成匹配 (CDD-ICM) 的基于扩散模型的多回合组合图像生成方法,利用 CLIP 作为图像和文本编码器的主干,并在每个 M-CIG 回合中,结合门控融合机制,将参考图像和修饰文本进行组合融合,通过条件方法生成目标图像,并引入反应结果的附加图像组成匹配 (ICM) 目标来优化生成图像语义质量。同时,采用 ICM 引导和无分类器引导进一步提高性能,在 CoDraw 和 i-CLEVR 两个基准数据集上取得了最新技术水平的结果。
Apr, 2023
提供了一个新的任务,即文本引导下的视频完成(TVC),并提出了一种新的模型 —— 多模式蒙版视频生成(MMVG),通过文本输入生成高质量的视频完整图像,同时满足预测,倒带和填充的条件。
Nov, 2022
通过用生成式变压器填补缺失的视觉数据,我们提出了一个简单但有效的多模态学习框架 GTI-MM,以增强数据效率和模型的鲁棒性,尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析,包括模型的训练,结果显示合成图像有助于训练数据的效率,并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外,我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。
Feb, 2024
这篇论文介绍了一种互补信息相互学习(CIML)框架,通过数学建模和处理跨模态冗余信息的负面影响,它将多模态分割任务分解成多个子任务,并通过信息传递来从其他模态中提取信息,以有效地去除冗余信息,提高验证准确性和分割效果。
Jan, 2024