简单而有效:CLIP 嵌入用于具身人工智能
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
本研究介绍了一种新的方法,将多尺度的 CLIP (对比性语言 - 图像预训练) 特征在线嵌入到 3D 地图中,通过利用 CLIP,该方法克服了传统的词汇有限方法的限制,并将语义信息融入到生成的地图中,从而高效地计算和嵌入多尺度 CLIP 特征,并且通过将 CLIP 特征嵌入到结果地图中,实现了离线检索和实时对象搜索,进一步提出了一种基于地图方法的零样本对象 - 目标导航系统,并通过对象 - 目标导航、离线对象检索和多对象 - 目标导航在模拟环境和真实机器人实验中验证了其有效性,结果表明,我们的方法不仅在地图生成方面表现出更快的性能,而且在对象 - 目标导航任务的成功率方面也超过了现有的最先进方法。
Mar, 2024
对比性语言 - 图像预训练 (CLIP) 是一种重要的图像表示学习方法,本文探讨了不同的 CLIP 训练视觉骨干网络之间的差异,发现它们具有不同的表达方式、在数据集上具有不同的分类性能,以及对某些图像扰动的鲁棒性不同。研究结果表明,在每个测试样例中根据情况选择最佳骨干网络,分类准确性可能提高 40 个百分点以上。基于这一发现,我们提出了一种简单而强大的自适应集成多个骨干网络的方法,该方法可以使用较少数量的已标记样例来调整骨干网络的自适应组合。在大量数据集上,该方法比最佳单一骨干网络的准确性提高了 39.1%,远远超过传统的集成方法。
May, 2024
使用预训练的 CLIP 编码器通过辅助目标检测目标,在 Episodic Transformer 架构中整合 CLIP 可以提高 ALFRED 任务的性能,并且尤其有助于利用物体描述、检测小物体和解释罕见词汇。
Jun, 2024
利用对比语言 - 视觉模型 CLIP,我们可以实现无需人工注释或额外训练的短语定位方法,其零样本短语定位性能优于现有无训练方法,并在某些情况下甚至超过了有监督的方法。
Apr, 2022
本研究针对活跃的开放词汇识别提出了一种新的代理方法,利用帧间和概念间相似性来引导代理运动和融合特征,从而在不依赖类别特定知识的情况下实现 53.3% 的开放词汇识别准确率,有效应对了视点和遮挡对模型性能的影响。
Nov, 2023
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
通过对比语言 - 图像预训练方法的不同背骨架结构的性能差异,发现正则化这些表示会导致显著的性能变化,进而提出了一种简单但有效的方法来结合多个背骨架的预测,并实现了显著的性能提升。
Dec, 2023
本文实证表明,CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本 /few-shot 结果。
Mar, 2022