CVPRApr, 2024

面向个性化视觉多重聚类的多模态代理学习

TL;DR给定未标记的目标视觉数据,作者提出了一种名为 Multi-MaP 的新方法,它利用多模态代理学习过程,借助 CLIP 编码器提取一致的文本和图像嵌入,GPT-4 整合用户的兴趣来制定有效的文本上下文,并设计了参考词约束和概念级约束以根据用户的兴趣学习最佳的文本代理。该方法不仅能够通过关键词熟练地捕捉用户的兴趣,而且还有助于识别相关的聚类,实验证明 Multi-MaP 在所有基准多聚类视觉任务中始终优于最先进的方法。