改进基于文本引导的图像修复的跨模态对齐
本文提出一种名为 TDANet 的图像修复模型,其通过文本的描述信息和图像的辅助区域来确定修复区的语义内容,利用双模态注意机制提取出明确的语义信息并应用图像与文本匹配损失,其结果表明,在两个公开数据集上,TDANet 模型在定量和定性评测中均达到了新的最佳水平,并且生成的图像与文本描述一致。
Apr, 2020
本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架,通过交叉模式对齐和内部模态自我监督来提高学习的代表性,并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息,取得了在图像 - 文本检索和视觉问答等任务中的优异表现。
Feb, 2022
该研究提出了一种新的医学图像分析解决方案:基于多任务配对掩模对齐(MPMA)的统一 Med-VLP 框架,其中设计了全局和局部对齐(GLA)模块和记忆增强型跨模态融合(MA-CMF)模块,以实现更全面的跨模态交互,并在全部下游任务中优于以前的方法。
May, 2023
提出了一种多粒度跨模态对齐 (MGCA) 框架,通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题,并采用硬采样策略促进精细的跨模态对比学习,进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 CC3M 数据集上进行训练后,该方法在性能上显著超过了现有的方法,验证了其有效性和高效性。
Mar, 2024
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023
跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架,使用跨语言转移改善了视觉和目标语言之间的对齐,可在跨模态网络中为可靠全面的语义对应(知识)提供优势,并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。
Dec, 2023
通过用生成式变压器填补缺失的视觉数据,我们提出了一个简单但有效的多模态学习框架 GTI-MM,以增强数据效率和模型的鲁棒性,尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析,包括模型的训练,结果显示合成图像有助于训练数据的效率,并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外,我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。
Feb, 2024
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。
Nov, 2017
Self-supervised Multi-modal Contrastive Learning (SMCL) 模型通过整合视觉和语言模态,使现代视觉 - 语言预训练(VLP)模型在无监督学习方面取得显著的进展。然而,由于网络采集的文本 - 图像对中存在噪声问题,在 SMCL 模型中增加训练数据量会带来相当大的计算成本和数据效率问题。为了提高 VLP 模型的数据效率,我们提出了 Text-aware Image Mixing(TiMix)方法,将基于混合的数据增强技术应用到 SMCL 模型中,能够在显著提升性能的同时,不会显著增加计算开销。我们从互信息(MI)的角度对 TiMix 进行了理论分析,表明混合的数据样本能够隐式地作为对比损失的正则化器。实验结果表明,与现有方法相比,即使减少了训练数据量并缩短了训练时间,TiMix 在下游任务上表现出了可比较的性能。该研究从实证和理论上证明了数据混合在数据高效和计算可行的 VLP 中的潜力,为 VLP 模型在实际场景中的广泛应用带来了好处。
Dec, 2023
本文提出了一种基于 Token-Guided Dual Transformer (TGDT) architecture 的图像文本检索框架,将粗粒度和细粒度表示学习结合到一个统一的框架中,并提出了一种名为同步多模态对比损失的新型训练目标,通过混合全局和本地跨模态相似性的两个阶段的推理方法,实现了与代表性最新方法相比极低的推理时间下,实现了最先进的检索表现。
Jun, 2023