Mar, 2024

GAgent:具有视觉语言模型的适应性刚柔抓取代理在复杂照明环境中

TL;DR本文介绍了一个设计用于开放环境的 GAgent:一种通过 VLM 代理和可变刚度软握持器提供高级认知能力的抓取代理。GAgent 由 Prompt Engineer 模块、视觉语言模型(VLM)核心和工作流模块组成。这三个模块通过识别对象和物料以及在具有挑战性的照明条件下准确估计握持区域能够提高夹持成功率。作为创造性的一部分,研究人员还创建了一种具有可变刚度的仿生混合软握持器,能够夹持重负载同时轻柔地接触物体。这种具备基于 VLM 的认知处理和仿生设计的智能代理显示出潜力,有望在各种场景下为无人机带来益处。