Jul, 2023

GridMM:视觉语言导航的网格存储映射

TL;DR通过构建自上而下的自我中心网格记忆地图 (GridMM) 来结构化所访问的环境,并提出了一种指令关联聚合方法来捕捉每个网格区域的细粒度视觉线索,实验证明该方法的优越性。