密集对齐字幕(DAC)促进视觉语言模型中的组合推理
有关大规模视觉语言数据集的筛选方法在数据集大小和质量之间进行权衡,而即使是可用的最高质量的筛选标题也远远不足以捕捉图像中丰富的视觉细节。
Dec, 2023
通过引入树增强视觉语言(3VL)模型架构和训练技术,以及我们提出的锚定推理方法和差分相关性(DiRe)可解释性工具,本研究扩展任意图像 - 文本对的文本内容为分层树状结构,并将该结构引入模型学习的视觉表示,提高了模型的解释能力和组合推理能力,同时展示了锚定和差分相关性工具的应用。
Dec, 2023
本文提出了一种新的深度神经网络模型 —— 深度组合描述器(DCC),用于描述在未配对图像 - 句子数据集中出现的新概念,可以利用大型对象识别数据集和外部文本语料库,并在语义上相似的概念之间进行知识转移,从而可以描述新的对象及其与其他对象的交互作用。
Nov, 2015
本研究提出了一种基于 “联合推理” 和 “上下文融合” 的模型管道来解决密集字幕的两个关键挑战,并在 Visual Genome 上取得了目前最佳算法的相对增益 73%的最新成果。
Nov, 2016
通过系统评估,本研究首次证明了在训练数据的两两复杂性增加时,标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题,为了解决这个问题,研究引入了 ViLLA,通过两个组件(自监督映射模型和对比视觉语言模型)来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系,实验证明 ViLLA 在细粒度推理任务(如零样本目标检测和检索)上表现优于其他视觉语言模型。
Aug, 2023
利用大型视觉语言模型来评估生成图像与输入文本之间的对齐,在此基础上,通过细调扩散模型来提升其对齐能力。实验证明,该方法显著改善了构图图像生成中的文本 - 图像对齐,特别在物体数量、属性绑定、空间关系和审美质量方面。
Oct, 2023
在这项工作中,我们介绍了一种用于 CLIP 的样本高效领域适应策略,称为 Domain Aligned CLIP (DAC),它在不对主模型进行全量微调的情况下,改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入,DAC 提供了一个计算效率高、抗分布转移性强且不改变 CLIP 参数的少样本微调框架,在 11 个广泛使用的图像分类任务中,以 2.3% 的提升应对 16 个样本分类挑战,并在 4 个鲁棒性基准上展现出竞争性能。
Nov, 2023
本文提出一种名为 Joint QA and DC Generation (JADE) 的新方法,利用预训练的多模态模型及易于爬取的图像 - 文本对生成和过滤大规模的视觉问答和密集字幕数据集。我们将该方法应用于概念字幕(CC3M)数据集,生成了一个名为 CC3M-QA-DC 的新的数据集,在多任务方式预训练时,CC3M-QA-DC 可以改善各种骨干网络在各种下游任务中的性能,并与更多数据使用模型相比,我们生成的 CC3M-QA-DC 和更大的图像 - 文本数据集(例如 CC15M)相结合,在相同的计算条件下达到了有竞争力的结果。
May, 2023
通过设计 Cola 基准测试,探索了 6 种微调策略,发现一种轻量级的多模态适配器优于常见策略,可在预训练模型生成的图像和语言特征上联合关注。
May, 2023
该研究提出了一种名为 Pseudo Caption Labeling(PCL)的简单而有效的方法,利用图像字幕模型生成对不同角度目标实例的描述,通过这些大量的数据样本进行知识提炼,以丰富目标的属性和关系等细节,从而提高模型的性能,实验表明该方法可以与任何图像字幕模型一起使用,不需要对模型架构或训练流程进行任何限制。
Mar, 2023