Jun, 2024

文本引导的图像聚类

TL;DR利用大规模视觉语言模型,该研究探索了可用于辅助多样化图像聚类的潜力,并提出一种名为 TGAICC 的新方法,通过使用提示来引导不同聚类的发现,并通过一致性聚类的方式将它们聚合在一起。该方法在四个多样化图像聚类基准数据集上表现出优于基于图像和文本的基准的结果,并通过基于词频统计的文本解释获得了多样化聚类的能力。总之,该研究说明了当代大规模视觉语言模型如何改变解释性数据分析,使得生成有洞察力、可定制和多样化的图像聚类成为可能。