文本引导的图像聚类

Jun, 2024

Text-Guided Alternative Image Clustering

Andreas Stephan, Lukas Miklautz, Collin Leiber, Pedro Henrique Luz de Araujo, Dominik Répás...

TL;DR利用大规模视觉语言模型，该研究探索了可用于辅助多样化图像聚类的潜力，并提出一种名为 TGAICC 的新方法，通过使用提示来引导不同聚类的发现，并通过一致性聚类的方式将它们聚合在一起。该方法在四个多样化图像聚类基准数据集上表现出优于基于图像和文本的基准的结果，并通过基于词频统计的文本解释获得了多样化聚类的能力。总之，该研究说明了当代大规模视觉语言模型如何改变解释性数据分析，使得生成有洞察力、可定制和多样化的图像聚类成为可能。

Abstract

Traditional image clustering techniques only find a single grouping within visual data. In particular, they do not provide a possibility to explicitly define multiple types of clustering. This work explores the potential of large vision-language models to facilitate alternative

image clustering large vision-language models alternative clusterings clustering benchmark datasets explanatory data analysis

发现论文，激发创造

文本引导的图像聚类

通过使用图像标题生成和视觉问答 (VQA) 模型生成文本，并基于生成的文本进行聚类，本研究在八个不同的图像聚类数据集中展示了得到的文本表示经常优于图像特征。此外，我们提出了一种基于计数的聚类解释方法，在聚类准确性不太高的情况下，基于关键词的解释能更好地描述聚类结果。整体而言，这项研究挑战了传统方法并为使用生成的文本进行图像聚类铺平了道路。

Feb, 2024

外部引导下的图像聚类

本文提出了一种新的聚类方法（TAC），利用外部知识作为一种新的监督信号来引导聚类，同时采用了文本和图像模态的相互作用，通过跨模态邻域信息相互影响来改进图像聚类性能。实验证明，TAC 在包括全面的 ImageNet-1K 数据集在内的五个广泛使用的和三个更具挑战性的图像聚类基准上取得了最先进的性能。

Oct, 2023

基于文本条件的图像聚类

本文介绍了一种基于用户指定的文本条件的图像聚类方法，通过利用现代视觉语言模型和大型语言模型，它提供了对聚类结果的直接控制，实验结果表明这种方法能够有效地以多种标准聚类图像，并显著优于基准方法。

Oct, 2023

基于聚类的生成不完整图像文本聚类 (CIGIT-C)

本研究针对多模态数据，使用一种基于生成网络的不完整图文聚类方法，旨在解决实际情景中数据不完整的问题，并在公开数据集上验证了其性能优于已有方法。

Sep, 2022

盲人视觉 - 语言一致性引导的多模态提示学习用于 AI 生成图像质量评估

提出了一种基于视觉 - 语言一致性指导的多模态提示学习方法，称为 CLIP-AGIQA，用于盲目的 AI 生成图像质量评估，该方法在两个公共 AGIQA 数据集上的实验结果表明其优于现有的质量评估模型。

Jun, 2024

基于文本和图像编码器的 AIGC 图像质量评估回归模型

我们提出了一个基于文本和图像编码器的回归（TIER）框架，用于评估从人类感知角度来看的人工智能生成图像的质量，实验证明我们的方法在大多数情况下相较于基准表现出更优异的性能。

Jan, 2024

跨领域理解引导式图像字幕性能

本文提出了一种使用指导文本来控制图像标题关注点的方法，使用基于 Transformer 的多模态编码器来生成标题，通过使用引导文本和全球和物体级别图像特征生成早期融合表示来生成标题，指导标题模型可较好地泛化用于外部领域的图像和指导文本，提高模型性能的关键因素是增加样式的多样性。

Dec, 2020

多视角对比图聚类

本研究提出了一种多视图属性图数据聚类的通用框架，采用多视图对比图聚类 (MCGC) 方法来学习一致性图，相比现有的方法，该方法表现更优异，尤其是在深度学习方法上。

Oct, 2021

基于多粒度跨模态对齐的开放词汇语义分割学习

提出了一种多粒度跨模态对齐 (MGCA) 框架，通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题，并采用硬采样策略促进精细的跨模态对比学习，进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 CC3M 数据集上进行训练后，该方法在性能上显著超过了现有的方法，验证了其有效性和高效性。

Mar, 2024

指导图像字幕模型生成更具体的字幕

基于图像的标题生成任务中，我们展示了通过微调自回归标题模型来生成更具体的标题，并且在解码过程中应用语言模型指导，从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。

Jul, 2023