生成图像特定文本改进细粒度图像分类
本文提出了一种名为 V-GLOSS 的方法,利用现代语言模型和语义知识库生成视觉上有根据的类别描述,进而解决现有方法中存在的粒度和标签歧义问题。通过在 ImageNet 和 STL-10 等基准 ZSIC 数据集上实现最新的结果,证明了 V-GLOSS 的有效性,并引入了一个 V-GLOSS 生成的类别描述的银数据集,并展示了它在视觉任务中的有用性。
Jun, 2023
本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法,通过检索和优化过程综合生成伪文本特征,可以灵活应用于各种情境和模型,并在实验中表现出显著的效果,GAN 模型在完全监督的情况下得到了 6.78 的 FID,是 GAN 最新的 SoTA 结果。
Oct, 2022
提出一种学习自图像和描述的模型(LIDE),通过与基准模型的对比实验证明了机器自动生成的描述可以作为模型预测的解释,高质量的用户生成描述可以进一步提高模型的性能,并通过比较特征空间中的图像表示和文本表示来研究语言描述为什么能提高 few-shot 图像分类的性能。
Jul, 2022
本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法,采用图像特征生成文本特征,实现了对文本数据的无缝融合。实验结果表明,该方法在标准文本到图像生成任务中取得了最好的表现,并且优于大多数使用完整图像 - 文本对进行训练的现有模型。此外,我们的方法可以应用于微调预训练模型,从而节省文本到图像生成模型的培训时间和成本。
Nov, 2021
通过使用大型语言模型(LLMs)生成的类别描述和丰富的细粒度图像分类数据集,我们提出了一种方法来改善视觉 - 语言模型(VLMs)在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督,我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5%。地理先验也被证明对于改善零样本分类同样有效,与视觉特征互补。我们计划发布包含 7 个数据集的基准测试,以促进未来的零样本识别研究。
Jan, 2024
TIPCap 是一种基于文本数据的交互提示的图像标题生成方法,通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异,并在生成标题之前引入可选的提示信息,优于其他弱监督或无监督的图像标题生成方法,并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。
Mar, 2024
本文提供了一种新颖的模型,使用 PHOC 描述符构建一组文本词袋以及 Fisher 向量编码,以处理文本与视觉数据之间的内在关系,从而在图像细分类和图像检索任务中获得最先进的结果。
Jan, 2020
通过使用图像标题生成和视觉问答 (VQA) 模型生成文本,并基于生成的文本进行聚类,本研究在八个不同的图像聚类数据集中展示了得到的文本表示经常优于图像特征。此外,我们提出了一种基于计数的聚类解释方法,在聚类准确性不太高的情况下,基于关键词的解释能更好地描述聚类结果。整体而言,这项研究挑战了传统方法并为使用生成的文本进行图像聚类铺平了道路。
Feb, 2024
本文提出了一种利用场景文本进行图像理解的方法,通过符号识别系统获取识别的单词和深层视觉特征的嵌入组合成一个可通过卷积神经网络进行优化的单一表示形式。通过引入注意力机制强化符号与图像之间的关系,不仅有效地提高分类准确率,而且可较大幅度提升产品图像检索性能。
Apr, 2017
提出了基于 Local Narratives 数据集和 TReCS 模型的图像文本生成方法,在视觉的基础上,利用分割掩模等技术实现了更好的图像合成效果。
Nov, 2020