简单而有效：CLIP 嵌入用于具身人工智能

CVPRNov, 2021

简单而有效：CLIP 嵌入用于具身人工智能

Simple but Effective: CLIP Embeddings for Embodied AI

Apoorv Khandelwal, Luca Weihs, Roozbeh Mottaghi, Aniruddha Kembhavi

TL;DR通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型，在实现与物理机器人和虚拟模拟任务相关的领域，我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现，从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。

Abstract

Contrastive language image pretraining (clip) encoders have been shown to be beneficial for a range of visual tasks from classification and detection to captioning and image manipulation. We investigate the effectiveness of →

embodied ai clip visual backbones object navigation visual representation

发现论文，激发创造

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

在线嵌入多尺度 CLIP 特征于 3D 地图中

本研究介绍了一种新的方法，将多尺度的 CLIP (对比性语言 - 图像预训练) 特征在线嵌入到 3D 地图中，通过利用 CLIP，该方法克服了传统的词汇有限方法的限制，并将语义信息融入到生成的地图中，从而高效地计算和嵌入多尺度 CLIP 特征，并且通过将 CLIP 特征嵌入到结果地图中，实现了离线检索和实时对象搜索，进一步提出了一种基于地图方法的零样本对象 - 目标导航系统，并通过对象 - 目标导航、离线对象检索和多对象 - 目标导航在模拟环境和真实机器人实验中验证了其有效性，结果表明，我们的方法不仅在地图生成方面表现出更快的性能，而且在对象 - 目标导航任务的成功率方面也超过了现有的最先进方法。

Mar, 2024

CLIP 中的协同作用和多样性：通过自适应骨干集成提高性能

对比性语言 - 图像预训练 (CLIP) 是一种重要的图像表示学习方法，本文探讨了不同的 CLIP 训练视觉骨干网络之间的差异，发现它们具有不同的表达方式、在数据集上具有不同的分类性能，以及对某些图像扰动的鲁棒性不同。研究结果表明，在每个测试样例中根据情况选择最佳骨干网络，分类准确性可能提高 40 个百分点以上。基于这一发现，我们提出了一种简单而强大的自适应集成多个骨干网络的方法，该方法可以使用较少数量的已标记样例来调整骨干网络的自适应组合。在大量数据集上，该方法比最佳单一骨干网络的准确性提高了 39.1%，远远超过传统的集成方法。

May, 2024

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

面对未知环境的常见物体错误：ET tu, CLIP?

使用预训练的 CLIP 编码器通过辅助目标检测目标，在 Episodic Transformer 架构中整合 CLIP 可以提高 ALFRED 任务的性能，并且尤其有助于利用物体描述、检测小物体和解释罕见词汇。

Jun, 2024

无需进一步训练即可将 CLIP 用于短语定位

利用对比语言 - 视觉模型 CLIP，我们可以实现无需人工注释或额外训练的短语定位方法，其零样本短语定位性能优于现有无训练方法，并在某些情况下甚至超过了有监督的方法。

Apr, 2022

主动开放字汇识别：让智能运动缓解 CLIP 限制

本研究针对活跃的开放词汇识别提出了一种新的代理方法，利用帧间和概念间相似性来引导代理运动和融合特征，从而在不依赖类别特定知识的情况下实现 53.3% 的开放词汇识别准确率，有效应对了视点和遮挡对模型性能的影响。

Nov, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

揭示 CLIP 中的骨干效应：探索表征的协同作用与变异

通过对比语言 - 图像预训练方法的不同背骨架结构的性能差异，发现正则化这些表示会导致显著的性能变化，进而提出了一种简单但有效的方法来结合多个背骨架的预测，并实现了显著的性能提升。

Dec, 2023

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本 /few-shot 结果。

Mar, 2022