Apr, 2025

层次性思维与动态行动:用于视觉与语言导航的层次多模态融合与推理

TL;DR本研究解决了视觉与语言导航中的复杂多模态交互问题,提出了一种多层融合与推理架构(MFRA),用于增强代理在视觉观测、语言指令和导航历史上的推理能力。MFRA通过层次化的融合机制和推理模块显著提高了复杂导航场景中的决策准确性,其在多个基准数据集上的表现优于现有方法。