UniFine: 一种用于零样本视觉-语言理解的统一和细粒度方法
本文介绍了一种将视觉语义模型和大型语言模型相结合的技术,实现了对图像生成描述性文本的能力,且可用于图像算术和视觉类比等高级视觉能力的应用。
Nov, 2021
本文实证表明,CLIP通过利用语言的能力可以成为强大的视觉-语言少样本学习器。我们评估了CLIP在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本/few-shot结果。
Mar, 2022
通过利用两种互补的“想象力”(检索已有图像和通过文本到图像生成合成不存在的图像),我们开发了一种新颖的方法Z-LaVI,为语言模型赋予了视觉想象能力,从而解决了大规模预训练语言模型的报告偏差问题,提高了跨多个语言任务的零-shot性能。
Oct, 2022
通过对大规模嘈杂数据进行对比学习训练的视觉-语言模型正在变得越来越受欢迎用于零样本识别问题,本文在数据集噪声、模型初始化和训练目标三个方面对对比预训练管道进行了改进。通过 Complexity、Action、and Text-spotting(CAT)筛选策略、概念蒸馏以及重要性采样方法,我们的 DiHT 方法极大地提高了对零样本和几样本线性探测的效果。
Jan, 2023
本文研究视觉与语言模型在零样本视觉识别任务中的应用难点,并针对对比视觉-语言模型(CLIP)等模型进行探讨。研究表明,模型更擅长识别细粒度概念,并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法,以评估其学习性偏差问题,并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战,并为进一步提高其零样本能力提出了方向建议。
Jun, 2023
ZS-A2T是一个零射击框架,将给定模型的转换器注意力转换为自然语言而无需任何训练,以可理解形式提供关于该模型的见解。它在视觉问答(VQA)的上下文中构建在预训练的大型语言模型上,并通过利用VQA模型的文本-图像匹配能力来确定其相似性,从而实现了无需训练并能够替换不同引导来源(例如属性而非注意力矩阵)或语言模型的框架。在VQA的文本解释数据集上进行了评估,并在GQA-REX和VQA-X的零射击设置中达到了最先进的性能。
Nov, 2023
视觉语言模型(VLM)在各种下游任务中展现出了卓越的性能,但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像,并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试SPEC。令人惊讶的是,四个领先的VLM在SPEC上的表现接近随机猜测,揭示了重大局限性。鉴于此,我们提出了一种简单而有效的方法来优化VLM在细粒度理解上的性能,在不影响零样本性能的情况下,显著改善了SPEC的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性,并进一步验证了我们的方法。
Nov, 2023
通过Image-Conditioned Caption Correction(ICCC)指导的二次调整,提高图像与语言之间的零-shot推理性能。
Apr, 2024
本研究解决了视觉语言模型在视觉推理能力上与世界知识间的混淆,系统地评估了其零-shot视觉推理能力。通过使用合成数据集,该研究发现文本场景描述在视觉推理中优于视觉嵌入,并指出在大型模型中,链式推理提示能提升推理效果,反映了大型语言模型在视觉推理中的潜力与局限。
Aug, 2024
本文解决了多模态应用中对强大的单模态编码器未充分利用的问题。我们提出了一种新方法,通过投影层将预训练的单模态编码器对齐,实现语言与视觉模态的连接。我们的最佳模型在数据量减少20倍、计算要求降低65倍的情况下,在ImageNet上获得76%的准确率,显示出该方法在多模态模型构建中的效率和灵活性。
Sep, 2024