Sep, 2024
HiFi-CS:面向机器人抓取的开放词汇视觉定位
HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping
Using Vision-Language Models
TL;DR本研究旨在解决在复杂、杂乱环境中对同一对象的视觉定位与抓取姿态估计的不足。提出了HiFi-CS方法,通过分层地应用特征线性调制(FiLM)来融合图像和文本嵌入,显著提高了开放词汇设置中的视觉定位精度。实验结果表明,该模型在15个桌面场景中实现了90.33%的视觉定位准确率,展示了其在机器人抓取任务中的潜在影响。