基于 CLIP 的语言引导机器人抓取：在杂乱环境中的参考抓取合成

Nov, 2023

基于 CLIP 的语言引导机器人抓取：在杂乱环境中的参考抓取合成

Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter

Georgios Tziafas, Yucheng Xu, Arushi Goel, Mohammadreza Kasaei, Zhibin Li...

TL;DR这项研究关注于在人类中心环境中操作的机器人，通过整合视觉定位和抓握能力，根据用户指令高效操纵物体。首先创建了一个基于 OCID 数据集中杂乱室内场景的难题基准，其中生成指代表达式并与 4 自由度的抓握姿势相连接，然后提出了一种新颖的端到端模型（CROG），利用 CLIP 的视觉定位能力直接从图像 - 文本对中学习抓握综合。实验结果表明，CROG 在挑战性基准测试中显著改善了定位和抓握能力，经过模拟和硬件的广泛机器人实验证明了该方法在具有杂乱物体的挑战性交互抓握场景中的有效性。

Abstract

robots operating in human-centric environments require the integration of visual grounding and grasping capabilities to effectively manipu

robots visual grounding grasping capabilities referring grasp synthesis clip

发现论文，激发创造

基于目标驱动的 6 自由度抓取技术在混杂环境下的物体操作

本研究提出了一种基于部分点云观察的，用于在杂乱场景中规划指定物体 6 自由度抓取的方法，其性能比基线方法高出 17.6%，能够成功清理包含 23 个未知物体和 51 次抓取操作的 9 个杂乱桌面场景，并利用我们学习到的碰撞检查模块来推理有效的抓取顺序，以检索不易到达的物体。

Dec, 2019

主动开放字汇识别：让智能运动缓解 CLIP 限制

本研究针对活跃的开放词汇识别提出了一种新的代理方法，利用帧间和概念间相似性来引导代理运动和融合特征，从而在不依赖类别特定知识的情况下实现 53.3% 的开放词汇识别准确率，有效应对了视点和遮挡对模型性能的影响。

Nov, 2023

多指机械手在杂乱环境中的抓取通过手 - 物体接触语义映射

将优化方法与生成模型相结合，我们开发了一个新颖的方法来在杂乱的环境中生成五指抓取样本，并通过评估模型改进了抓取质量和碰撞概率，显著提高了在复杂情境中进行五指抓取的实用性。

Apr, 2024

Sim-Grasp：使用综合基准学习杂乱环境中的六自由度抓取策略

该研究论文介绍了 Sim-Grasp，该系统结合了先进的语言模型，以增强杂乱环境下的物体操作能力。Sim-Grasp 通过引入 Sim-Grasp-Dataset 和 Sim-GraspNet，成功地生成点云下的抓取姿势。Sim-Grasp 成功率达到了 97.14% 的单一物体抓取和 87.43% 和 83.33% 的混合环境抓取（分级 1-2 和分级 3-4 的物体）。通过结合文本和盒子提示进行目标识别，Sim-Grasp 实现了对物体的无关和有关抓取，推动了智能机器人系统的发展。

May, 2024

CLIP-Nav: 使用 CLIP 进行零样本视觉与语言导航

本研究主要探讨利用 CLIP 模型在零样本情况下，通过描述目标对象的自然语言参考表达式来解决零样本视觉语言导航问题，并在 REVERIE 数据集上比较 CLIP 模型和监督学习模型的性能。结果显示，采用 CLIP 零样本方法的导航能力优于基于模板的监督学习方法，并且在相对成功率（RCS）方面具有更好的泛化性能。

Nov, 2022

CLIP 是否是细粒度开放世界感知的主要障碍？

现代应用越来越需要适应训练过程中未遇到的新概念的灵活计算机视觉模型。本文通过对开放词汇物体识别限制的详细研究，发现了这些限制的根本原因，并试图理解是否存在于 CLIP 嵌入中的细粒度知识未能在推断时利用。我们的初步实验表明，简单的 CLIP 潜空间重新投影有助于分离细粒度概念，为开发能够处理细节的骨干网络铺平了道路。

Apr, 2024

DisCLIP: 开放式词汇参照表达生成

DisCLIP: 一种基于预训练的视觉 - 语义模型和 LLM 的 REFER 生成方法，可以在推断时生成与目标概念一致且不包含其他干扰概念的上下文描述，相较于传统的监督学习方法，在泛化到新图像和概念的情况下表现更优，同时使用人工评估和多个 REF 表现测试表明该方法为有效的高质量上下文描述生成方法。

May, 2023

CLIPUNetr: 使用 CLIP 推动的指针表达分割辅助非标定视觉伺服控制的人机界面

利用引用表达分割，我们提出了一个新的 CLIP 驱动的引用表达分割网络 CLIPUNetr，通过利用 CLIP 强大的视觉语言表示，从引用表达中分割区域，并利用其 U 形编码器 - 解码器架构生成具有更清晰边界和更精细结构的预测，进一步将 CLIPUNetr 集成到无标定基于图像的视觉伺服和应用于实际机器人环境中的控制，实验结果显示，我们的方法平均改善了边界和结构测量约 120％，可以成功辅助实际无结构化操作环境中的视觉伺服控制。

Sep, 2023

CLIPort: 机器人操控的何时和何地路径

通过结合视觉操作中的语义理解与空间精度，使用基于语言的模仿学习代理 CLIPort，可在训练过程中不需要显式地表示对象姿态、实例分割、内存、符号状态或句法结构的情况下，有效地解决各种语言规定的桌面任务，具有数据效率和泛化能力。

Sep, 2021

通过神经表面渲染在混乱环境中学习任意视角 6DoF 机器人抓取

本文介绍了一种名为 NeuGraspNet 的新型方法，它使用神经立体表示和表面渲染的最新进展，学习了全局和本地的神经表面表示，并使用局部神经表面渲染问题对抓取进行重新解释，能够在遮挡的场景中操作，并展示了在移动机械手中应用的效果。

Jun, 2023