Mar, 2024

基于大型语言模型的房间 - 物体关系知识在增强多模态输入目标导航中的应用

TL;DR利用大型语言模型提取知识,我们在多通道 Swin-Unet 架构的基础上,使用数据驱动的、基于模块的方法进行多任务学习,从而实现了有效的目标导航,超过了基准模型平均 10.6% 的效率指标(SPL),并在现实世界的演示中展示了该方法在穿越多个房间时的高效性。