多模态贺卡数据集的弱监督标注

Dec, 2022

Weakly Supervised Annotations for Multi-modal Greeting Cards Dataset

Sidra Hanif, Longin Jan Latecki

TL;DR本研究提出了一个图像 / 文本数据集 Greeting Cards Dataset (GCD)，并通过预训练模型完成了对于 GCD 数据集中抽象视觉概念的学习。同时，该数据集还可以用于生成贺卡图像。

Abstract

In recent years, there is a growing number of pre-trained models trained on a large corpus of data and yielding good performance on various tasks such as classifying multimodal datasets. These models have shown good performance on natural images but are not fully explored for scarce ab

pretrained models multimodal datasets image/text-based dataset abstract visual concepts clip-based image captioning model

发现论文，激发创造

利用多模态 CLIP 揭示广义类别的潜力

通过引入文本信息和多模态潜力的方法，在广义类别发现任务中，我们提出了一种基于文本嵌入综合器的模型，该模型生成用于未标记样本的伪文本嵌入，并通过视觉和语义信息的相互增强，超越了现有方法，在所有广义类别发现基准上取得了新的最佳效果。

Mar, 2024

文本知识的重要性：跨模态共教带来的一般化视觉类别发现

通过使用强大的视觉 - 语言模型，本文提出了一个两阶段的 TextGCD 框架，通过检索式文本生成和跨模态共同教学来实现多模态的广义类别发现，并设计了自适应类别对齐策略以及软投票机制以整合多模态线索。实验证明我们的方法在八个数据集上具有较大的优势，尤其在 ImageNet-1k 和 CUB 上的所有精确度方面超过最佳竞争者分别为 7.7% 和 10.8%。

Mar, 2024

CLIP-GCD: 简单的语言指导通用类别发现

本文通过引入多模态模型 (CLIP)，提出了一种基于文本检索的机制，通过挖掘带标签和无标签文本库中的文本描述来实现联合图像 + 文本半监督聚类，该方法在多个数据集上得到了最优结果。

May, 2023

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022

利用标题注释学习视觉表征

使用图像和标题的联合信息进行预训练可提高图像表征能力，该方法通过 image-conditioned masked language modeling（ICMLM）任务来实现，训练出的表征能够成功应用于多种目标任务。

Aug, 2020

DialogCC：大规模多模态对话数据集

本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道，使用这个管道，我们提出了一个大规模的多模态对话数据集 DialogCC，并且通过广泛的实验结果表明，使用我们的数据集训练多模态对话模型可以改善泛化性能，与此同时，使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。

Dec, 2022

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习

本文介绍了利用图像字幕预训练高质量视频模型的方法，并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效，使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能，并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。

Apr, 2023