关键词navigation instruction generation
搜索结果 - 2
- ECCV使用 BEV 感知和大型语言模型生成导航指令
BEVInstructor 提出了一种将 Bird's Eye View(BEV)特征与 Multi-Modal Large Language Models(MLLMs)相结合的导航指令生成方法,通过融合 BEV 和透视特征构建 Persp - Kefa:基于知识增强和细粒度对齐技术的导航指令生成说话人
我们引入了一种新颖的导航指令生成的说话者模型 Kefa。我们的模型通过知识细化模块来增强特征表示,并通过自适应时间对齐方法来确保生成的指令与观测序列的细粒度对齐。此外,我们提出了一种新的导航指令评估度量 SPICE-D,该度量关注方向短语的