面向个性化视觉多重聚类的多模态代理学习

CVPRApr, 2024

面向个性化视觉多重聚类的多模态代理学习

Multi-Modal Proxy Learning Towards Personalized Visual Multiple Clustering

Jiawei Yao, Qi Qian, Juhua Hu

TL;DR给定未标记的目标视觉数据，作者提出了一种名为 Multi-MaP 的新方法，它利用多模态代理学习过程，借助 CLIP 编码器提取一致的文本和图像嵌入，GPT-4 整合用户的兴趣来制定有效的文本上下文，并设计了参考词约束和概念级约束以根据用户的兴趣学习最佳的文本代理。该方法不仅能够通过关键词熟练地捕捉用户的兴趣，而且还有助于识别相关的聚类，实验证明 Multi-MaP 在所有基准多聚类视觉任务中始终优于最先进的方法。

Abstract

multiple clustering has gained significant attention in recent years due to its potential to reveal multiple hidden structures of data from different perspectives. The advent of deep multiple clustering technique

multiple clustering deep multiple clustering techniques multi-modal and large language models multi-map benchmark multi-clustering vision tasks

发现论文，激发创造

MaPLe: 多模态提示学习

本研究提出了多模态提示学习 (MaPLe) 的方法，旨在通过不同的早期阶段分别学习视觉和语言分支的独立提示，以逐步建模分阶段的特征关系，并促进视觉 - 语言提示之间的强耦合，以改善 CLIP 的下游任务结果。结果表明，该方法具有良好的性能和广泛的应用前景。

Oct, 2022

CLIP 的零射类别视觉分类的内部模态代理学习

通过使用文本数据的代理标签帮助直接学习图像数据的代理标签，并利用相应的分析方法进一步提炼这些标签，以改善视觉任务中的零 - shot 分类准确率。

Oct, 2023

MmAP：用于跨领域多任务学习的多模态对齐提示

利用多模态对齐提示（MmAP）和创新的多任务提示学习框架，本文在多任务学习中实现了显著的性能改进，同时仅利用约 0.09％的可训练参数。

Dec, 2023

多模态 LLM 的视觉缺陷探究

通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与 MLLMs 相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024

视觉 - 语言模型的多模态特征提示

我们提出了一种多模态属性提示方法（MAP），通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型（VLMs）在少样本情况下的一些局限性，实验结果表明我们的方法在 11 个数据集上表现优于现有方法。

Mar, 2024

MoVA: 将多模态背景下的视觉专家混合进行调整

通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。

Apr, 2024

多模态对比学习的泛化性

本文通过建立多模态对称矩阵分解和对称矩阵分解的内在联系，证明了多模态对比学习在图像下游任务中的泛化保证，并通过统一模型表明多模态对比学习隐含地通过文本对生成了伪正对，从而具有更多的语义一致和多样性正对，可显著提高基于自我监督的对比学习在图像分类中的性能。

Jun, 2023

MMICL: 视觉语言模型的多模态上下文学习

通过考虑模型和数据的角度，提出了 MMICL 去解决图像与文本交叉多模态提示的问题，通过无需训练的数据更好地适应用户真实应用中复杂的提示，其中包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。在广泛的视觉 - 语言任务中，特别是在复杂推理基准测试中，MMICL 取得了新的最先进的零样本和少样本性能。同时，对 ScienceQA-IMG 上的实验表明 MMICL 成功缓解了视觉 - 语言模型中的语言偏差问题，我们相信这是 MMICL 卓越性能背后的原因。

Sep, 2023

MoDE: 通过聚类实现 CLIP 数据专家

使用混合数据专家（MoDE）方法提高神经网络 CLIP 在零样本图像分类任务上的性能，通过聚类学习多个数据专家，使用元数据与聚类条件的相关性确定权重进行模型集成。

Apr, 2024

多模态语义理解与对比跨模态特征对齐

本篇研究提出了一种基于 CLIP 引导的对比学习的架构，用于执行多模态特征对齐，将来自不同模态的特征投影到一个统一的深度空间，实验结果表明，我们提出的模型在多模态讽刺检测和多模态情感分析任务中明显优于多个基准模型，我们的特征对齐策略相对于其他聚合方法和甚至富含知识的模型也带来了明显的性能增益，此外，我们的模型实现简单，无需使用特定任务的外部知识，因此可以轻松迁移到其他多模态任务。

Mar, 2024