Feb, 2025

Mem2Ego:利用全球到自我记忆增强视觉语言模型以实现长期目标的具体化导航

TL;DR本研究解决了传统视觉语言模型在复杂环境中导航时的几何信息缺失问题。提出了一种新颖的导航框架,通过动态检索全球记忆模块的任务相关信息并与自我观察相结合,提升了空间推理能力和决策效率。实验结果表明,该方法在物体导航任务中超越了以往的先进水平,展现出更有效和可扩展的导航解决方案。