提出了一种空间语言模型用于3D视觉定位问题,使用基于Transformer的架构将空间嵌入和DistilBert的语言嵌入结合起来进行目标对象预测,能够在ReferIt3D提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。
Jul, 2021
通过与专家的讨论,我们引入了一种新的零射击视觉语言导航框架,命名为DiscussNav,能够有效地增强导航性能。
Sep, 2023
利用大型语言模型(大型语言模型)分析3D机器人轨迹数据和2D方向形状标注等任务,并引入基于前缀的提示机制,提高了性能,为未来的改进提供了基础。
Dec, 2023
建立具有普适性的通用机器人系统一直是人工智能领域的长期目标。本研究调查了如何将自然语言处理(NLP)和计算机视觉(CV)领域的基础模型应用于机器人领域,并探讨了构建面向机器人的基础模型的可能形式,以及使用基础模型实现通用机器人系统所面临的主要挑战和未来方向。
AutoRT利用基础模型扩展操作机器人在未知场景中的部署,通过视觉-语言模型进行场景理解和定位,并利用大规模语言模型提出多样且新颖的指令,实现对机器人群体的指导数据收集,从而显著扩大机器人学习的数据规模。
Jan, 2024
我们提出了一种基于语义推理和视觉语言模型的方法,通过构建语义地图和使用自校准来提高机器人的提问回答和探索效率。
Mar, 2024
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的3D场景模块化表示,并引入基于LLM的修剪策略以消除无关的目标特定信息。
基于TopViewRS数据集,评估了代表性的开源和闭源可见语言模型在不同复杂度的感知和推理任务上的表现,并发现其性能明显低于人类平均水平,强调了提升模型在地理空间推理方面的能力的迫切需求,并为进一步研究出路提供了基础。
Jun, 2024
我们对机器人的目标导航任务中应用的视觉语言前沿地图(VLFM)进行了优化研究。我们评估了各种视觉语言模型、目标检测器、分割模型以及多模态理解和视觉问答模块的效率和性能。在有限的VRAM桌面上,我们提出了一个解决方案,它在不丢失重要路径长度损失的情况下,比VLFM BLIP-2基线取得了更高的成功率(+1.55%),并且需要的视频内存减少了2.3倍。我们的研究结果揭示了在资源有限的环境中平衡模型性能和计算效率的洞见,并提出了有效的部署策略。
通过固定Large Language Models中的视觉内容,我们利用了一种将LLMs和导航策略网络结合起来进行有效动作预测和导航推理的方法,展示了所提出方法的数据效率,并消除了基于LM的代理与最先进VLN专家之间的差距。
Jul, 2024