基于多粒度跨模态对齐的开放词汇语义分割学习

Mar, 2024

基于多粒度跨模态对齐的开放词汇语义分割学习

Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision

Yajie Liu, Pu Ge, Qingjie Liu, Di Huang

TL;DR提出了一种多粒度跨模态对齐 (MGCA) 框架，通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题，并采用硬采样策略促进精细的跨模态对比学习，进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 CC3M 数据集上进行训练后，该方法在性能上显著超过了现有的方法，验证了其有效性和高效性。

Abstract

Recently, learning open-vocabulary semantic segmentation from text supervision has achieved promising downstream performance. Nevertheless, current approaches encounter an alignment granularity gap owing to the a

open-vocabulary semantic segmentation alignment granularity gap multi-grained cross-modal alignment dense annotations zero-shot segmentation

发现论文，激发创造

面向广义医学视觉表示学习的多粒度跨模态对齐

本文提出了一种基于多粒度跨模态对齐的框架，通过利用病理区域级别、实例级别和疾病级别上医学图像和放射学报告之间的自然语义一致性来学习泛化的医学视觉表征，实验结果表明，该方法在涵盖了图像分类、物体检测和语义分割等七个下游医疗图像任务上表现出稳定和卓越的性能。

Oct, 2022

多级交叉模态对齐图像聚类

我們提出了一種多層次跨模態對齊方法，通過在三個層次（即實例級別、原型級別和語義級別）建立一個更小但更好的語義空間，對跨模態預訓練模型中的對齊進行改進，以提高下游任務的性能。實驗結果清楚地表明了我們新方法的優越性。

Jan, 2024

改进基于文本引导的图像修复的跨模态对齐

本研究提出了一种基于视听语言预训练模型和对跨模态对齐知识的改进的跨模态对齐模型的图像修复方法，通过在两个流行的视听语言数据集上的实验表明，该模型相对于其他强竞争对手的性能达到了最佳水平。

Jan, 2023

利用多粒度跨域对齐提升异常分割

提出了适用于复杂驾驶环境中异常物体分割的多粒度跨域对齐（MGCDA）框架，该框架将新的多源领域对抗训练（MDAT）模块和新的跨域异常感知对比学习（CACL）方法结合起来，以增强模型的普适性，无缝地整合多域数据，并在场景和样本级别上进行操作。

Aug, 2023

跨模态注意力一致性正则化用于视觉语言关系对齐

通过跨模态注意力实现多模态视觉语言模型中的关系级对齐，进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。

Dec, 2022

跨模态上下文学习实现多模态生成

本研究提出了一种利用大型语言模型和扩散模型的多模式生成方法（MGCC），通过在 LLM 嵌入空间中显式学习文本和图像之间的跨模式依赖关系以及生成特定于多物体场景的对象边界框，实现了从复杂的多模式提示序列中生成新图像的能力，并在两个基准数据集上进行了实验验证。

May, 2024

多模态语义理解与对比跨模态特征对齐

本篇研究提出了一种基于 CLIP 引导的对比学习的架构，用于执行多模态特征对齐，将来自不同模态的特征投影到一个统一的深度空间，实验结果表明，我们提出的模型在多模态讽刺检测和多模态情感分析任务中明显优于多个基准模型，我们的特征对齐策略相对于其他聚合方法和甚至富含知识的模型也带来了明显的性能增益，此外，我们的模型实现简单，无需使用特定任务的外部知识，因此可以轻松迁移到其他多模态任务。

Mar, 2024

MMGA：基于图形对齐的多模式学习

本文提出了一个新的多模态预训练框架 MMGA，它能在社交媒体上整合图形、图像和文本模态的信息来增强用户表示学习。通过多步骤的图形对齐机制，将自监督信息注入到图像和文本编码器的优化中，同时使用图像和文本模态的信息来指导图形编码器学习。实验结果表明，该模型在 Instagram 数据集上表现良好，能提高粉丝预测任务的性能；同时，我们也公开了包含 60,000 个用户、基于 200 万帖子标注的第一个图形多模态数据集，以便于未来的研究。

Oct, 2022

学习多模态语义对齐模型以进行故事可视化

在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题，进而生成连贯、高质量的多句故事可视化。

Nov, 2022

将空间一致分组与文本监督的语义分割相结合

该研究通过自学习模型和文本监督模型相结合，采用有意义的空间一致性对图像进行语义分割，增强了文本监督模型对物体边界的识别，实现了良好的分割效果。

Apr, 2023