UniFine: 一种用于零样本视觉 - 语言理解的统一和细粒度方法
该研究提出了一种新型的学习范式 - 统一对比学习(UniCL),通过将人类标注的图像标签数据和网络爬取的图像文本数据相结合,学习出在零样本,线性探测,完全微调和迁移学习方案中具有语义丰富而有区分性的表示。在各种基准测试中,UniCL 的性能均优于语言图像对比学习和监督学习方法,并且在纯图像标签数据上,其表现也不亚于监督学习方法。
Apr, 2022
本文研究视觉与语言模型在零样本视觉识别任务中的应用难点,并针对对比视觉 - 语言模型(CLIP)等模型进行探讨。研究表明,模型更擅长识别细粒度概念,并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法,以评估其学习性偏差问题,并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战,并为进一步提高其零样本能力提出了方向建议。
Jun, 2023
本文提出了一个统一的视觉语言预训练模型,采用共享的多层 Transformer 网络进行编码和解码,通过两个任务的无监督学习目标对大量的图像文本对进行预训练,使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。
Sep, 2019
该研究扩展了 CLIP 模型的多粒度对齐,在多个层次上构建了伪注释数据集,并开发了名为 UMG-CLIP 的统一多粒度学习框架,通过参数高效调整,实现了在各种图像理解基准测试中超越当前广泛使用的 CLIP 模型,包括开放世界识别、检索、语义分割和全景分割任务,具有最先进的性能。
Jan, 2024
本文实证表明,CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本 /few-shot 结果。
Mar, 2022
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架,采用 “基础学习” 方案,成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。
Mar, 2022
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model,并利用 pretraining 技术解决了 context-independent 问题,以达到比以前更好的效果。
Jun, 2023
本文提出了 VideoCLIP,这是一种对比学习方法,用于在没有下游任务的标签情况下,预训练用于零样本视频和文本理解的统一模型。我们的实验表明,这种方法在一系列下游任务中的表现最优,超越了之前的工作,并在某些情况下甚至优于有监督方法。
Sep, 2021