Jun, 2024

在零样本机器人导航中平衡性能和效率

TL;DR我们对机器人的目标导航任务中应用的视觉语言前沿地图(VLFM)进行了优化研究。我们评估了各种视觉语言模型、目标检测器、分割模型以及多模态理解和视觉问答模块的效率和性能。在有限的 VRAM 桌面上,我们提出了一个解决方案,它在不丢失重要路径长度损失的情况下,比 VLFM BLIP-2 基线取得了更高的成功率(+1.55%),并且需要的视频内存减少了 2.3 倍。我们的研究结果揭示了在资源有限的环境中平衡模型性能和计算效率的洞见,并提出了有效的部署策略。