基于文本条件的图像聚类
通过使用图像标题生成和视觉问答 (VQA) 模型生成文本,并基于生成的文本进行聚类,本研究在八个不同的图像聚类数据集中展示了得到的文本表示经常优于图像特征。此外,我们提出了一种基于计数的聚类解释方法,在聚类准确性不太高的情况下,基于关键词的解释能更好地描述聚类结果。整体而言,这项研究挑战了传统方法并为使用生成的文本进行图像聚类铺平了道路。
Feb, 2024
利用大规模视觉语言模型,该研究探索了可用于辅助多样化图像聚类的潜力,并提出一种名为 TGAICC 的新方法,通过使用提示来引导不同聚类的发现,并通过一致性聚类的方式将它们聚合在一起。该方法在四个多样化图像聚类基准数据集上表现出优于基于图像和文本的基准的结果,并通过基于词频统计的文本解释获得了多样化聚类的能力。总之,该研究说明了当代大规模视觉语言模型如何改变解释性数据分析,使得生成有洞察力、可定制和多样化的图像聚类成为可能。
Jun, 2024
本文提出了一种新的聚类方法(TAC),利用外部知识作为一种新的监督信号来引导聚类,同时采用了文本和图像模态的相互作用,通过跨模态邻域信息相互影响来改进图像聚类性能。实验证明,TAC 在包括全面的 ImageNet-1K 数据集在内的五个广泛使用的和三个更具挑战性的图像聚类基准上取得了最先进的性能。
Oct, 2023
本研究针对多模态数据,使用一种基于生成网络的不完整图文聚类方法,旨在解决实际情景中数据不完整的问题,并在公开数据集上验证了其性能优于已有方法。
Sep, 2022
本文提出了一种名为 CiT 的有效视觉 - 文本学习算法,通过在训练中将数据目标整合进去,自动产生高质量数据集和提高对比度图像 - 文本训练的速度,从而实现了数据筛选管道的免除和训练速度的提高。
Jan, 2023
本研究提出了一种基于复杂文本描述的图像编辑方法,在文本相关部分对输入的图像进行修改,并引入用户界面对生成的图像进行交互式重新修改,实现实时交互、灵活和准确的图像操作。
Nov, 2022
提出了基于 Local Narratives 数据集和 TReCS 模型的图像文本生成方法,在视觉的基础上,利用分割掩模等技术实现了更好的图像合成效果。
Nov, 2020
本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法,用于评估和比较最新的文本到图片模型。实验结果表明,人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。
Dec, 2022
本文提出了一种基于迭代分类的短文本聚类方法,该方法通过离群值去除、分类算法训练和重新聚类等操作,使得短文本聚类的准确性得到了显著提升。实验结果表明,相对于其他聚类方法和现有的短文本聚类方法,该方法在多个短文本数据集上的聚类效果更好。
Jan, 2020