CLIP 对剥香蕉的了解
本研究提出了一种基于视觉 - 文本匹配的多模态学习框架,通过对标签文本的语义信息进行建模,并提出了一种新的 “预训练、提示和微调” 范例,以实现零样本行动识别。实验结果表明,ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力,而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。
Sep, 2021
本研究针对活跃的开放词汇识别提出了一种新的代理方法,利用帧间和概念间相似性来引导代理运动和融合特征,从而在不依赖类别特定知识的情况下实现 53.3% 的开放词汇识别准确率,有效应对了视点和遮挡对模型性能的影响。
Nov, 2023
这项研究关注于在人类中心环境中操作的机器人,通过整合视觉定位和抓握能力,根据用户指令高效操纵物体。首先创建了一个基于 OCID 数据集中杂乱室内场景的难题基准,其中生成指代表达式并与 4 自由度的抓握姿势相连接,然后提出了一种新颖的端到端模型(CROG),利用 CLIP 的视觉定位能力直接从图像 - 文本对中学习抓握综合。实验结果表明,CROG 在挑战性基准测试中显著改善了定位和抓握能力,经过模拟和硬件的广泛机器人实验证明了该方法在具有杂乱物体的挑战性交互抓握场景中的有效性。
Nov, 2023
本文提出了一种名为 MA-CLIP 的新方法,旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别,从而解决传统方法中的参数调优和时间建模的问题。
Aug, 2023
准确的多标签感知能力和分割是基于交互的许多复杂系统中的重要组成部分。我们提出了一种新的感知能力方法,它能够实现准确的多标签分割。该方法可以从交互的第一人称视频中自动提取基于环境的感知能力,并提供感知能力位置的像素级精度。使用此方法构建了基于 EPIC-Kitchen 数据集的最大且最完整的感知能力数据集 EPIC-Aff,其中提供了基于交互、多标签、度量和空间感知能力注释。然后,我们提出了一种基于多标签检测的感知能力分割方法,可以使多个感知能力在同一空间中存在,例如与相同对象相关联。我们提出了几种使用多种分割架构的多标签检测策略。实验结果凸显了多标签检测的重要性。最后,我们展示了如何利用我们的度量表示来构建空间行为中心区域的交互热点地图,并使用该表示执行任务导向的导航。
Sep, 2023
本研究使用视觉契合技术,通过预测关键点的接触信息,提出了一种端到端的控制策略学习框架,可以实现在不同类型的操纵任务中的泛化。结果显示,我们的算法在成功率上大大优于基线算法,包括基于视觉契合和强化学习方法。
Sep, 2022
本文分析了一种名为 CLIP 的计算机视觉模型,并探讨了其潜在的应用与局限性,其中包括了如何避免模型固有的偏差,以及在模型部署时考虑更广泛的特性,而非单纯关注任务的分类准确度。
Aug, 2021
提出一种从人类遥操作的游戏数据中提取自我监督的视觉管用模型,并将其与基于模型的策略学习和基于模型的强化学习相结合,以实现有效的策略学习和运动规划,从而实现在人类环境中运作的机器人的高效操作。
Mar, 2022
通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习,我们的方法在少样本学习和零样本学习中具有显著优势,并在少参数和额外计算成本的条件下实现了竞争性性能。
Aug, 2023
這項研究旨在將大規模預先訓練的視覺語言模型,如對比語言 - 圖像預訓練(CLIP),適應各種監督設置下物體再識別(Re-ID)的表現提升。在本研究中,我們首先分析了 CLIP-ReID 中 prompt learning 的作用並確認了其限制。基於我們的調查,我們提出了一種簡單而有效的方法,通過使用原型對比學習(PCL)損失直接微調 CLIP 的圖像編碼器,從而消除了 prompt learning 的需要。在人物和車輛 Re-ID 數據集上的實驗結果證明了我們的方法與 CLIP-ReID 的競爭力。此外,我們將基於 PCL 的 CLIP 微調方法擴展到無監督場景,達到了最新的表現。
Oct, 2023