Oct, 2024
BUMBLE:通过视觉-语言模型统一推理与行动以实现建筑范围内的移动操控
BUMBLE: Unifying Reasoning and Acting with Vision-Language Models for
Building-wide Mobile Manipulation
TL;DR本研究针对建筑范围内移动操控任务中的长时程挑战,提出了BUMBLE框架,通过集成开放世界RGBD感知、多样化的运动技能及双层内存来实现任务的高效执行。评估结果显示,BUMBLE在不同建筑、任务场景下的成功率达到47.1%,用户满意度相比现有方法提高22%,展现了使用先进基础模型提升性能的潜力。