Mar, 2024
基于大型语言模型的房间 - 物体关系知识在增强多模态输入目标导航中的应用
Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation
Leyuan Sun, Asako Kanezaki, Guillaume Caron, Yusuke Yoshiyasu
TL;DR利用大型语言模型提取知识,我们在多通道 Swin-Unet 架构的基础上,使用数据驱动的、基于模块的方法进行多任务学习,从而实现了有效的目标导航,超过了基准模型平均 10.6% 的效率指标(SPL),并在现实世界的演示中展示了该方法在穿越多个房间时的高效性。