关键词vision-and-language grounding
搜索结果 - 2
- 具有可操作感知的多模态神经 SLAM 学习行为
提出一种神经 SLAM 方法,利用多种模态进行探索,预测可承受意义地图并在其上进行规划,从而显著提高了探索效率,实现了鲁棒的长程规划,使得机器智能能够更有效地识别视觉和语言信息。在 ALFRED 基准测试中,相对先前发表的作品,提出的 Af - 将视觉区域与文本概念对齐以实现语义驱动图像表征
该论文的研究旨在使用一组集成的视觉区域和相应的文本概念来表示图像,从而反映出特定的语义。为此,研究人员构建了互相迭代注意力(MIA)模块,并将该方法在图像字幕和视觉问答等任务中得到了验证。结果表明,该方法对于图像相关应用具有广泛的泛化能力,