VoxML 作为注释语言的抽象规范
本篇文章介绍了 VoxML 这种建模语言的规范,它可以编码三维模型表示的现实世界对象的语义知识,以及与之相关的事件和属性,旨在通过允许编码广泛的语义知识来克服现有 3D 可视化标记语言的局限性,从而使用表示其语义值的概念对象对真实场景进行多模态仿真。
Oct, 2016
提出了一种名为 Audio-Visual-Language Maps (AVLMaps) 的 3D 空间地图表达方式,集成了来自音频、视觉和语言提示的跨模态信息,可以通过多模态引导实现零样本多模态目标导航,并在模糊场景中提供 50%更好的召回率。
Mar, 2023
通过多模态的视觉 - 语言基础模型作为一种视角,本文提出了一种逻辑规范语言 Con_spec,用于在这些模型的高级人类可理解概念描述的基础上编写规范并进行形式验证,通过采用 VLM 实现自然语言性质的编码和高效检查,以 ResNet 为基础的分类器在 RIVAL-10 数据集上进行的实验验证了我们的技术。
Mar, 2024
本研究提出了 VLMaps,一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示,其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建,并且可以与多种类型的机器人共享,能够进行导航的同时生成新的障碍物地图。实验表明,VLMaps 可以支持人类语言含义更丰富的导航指令。
Oct, 2022
本研究介绍了一种创新方法,利用 VR 环境中的 VLMs(Visual Language Models)来增强用户交互和任务效率,通过自然语言处理实现实时、直观的用户交互,不依赖于视觉文本指令。使用语音识别和文本转语音技术,使用户与 VLM 之间实现无缝通信,有效地引导用户完成复杂任务。初步实验结果显示,使用 VLMs 不仅能够缩短任务完成时间,还能提高用户舒适度和任务参与度,相较于传统的 VR 交互方法。
May, 2024
本文提出自动操作求解器(AMSolver)系统和基于其构建的视觉与语言操作基准(VLMbench),用于处理基于语言指令的机器人操作任务,并开发了基于关键点的 6D-CLIPort 模型来处理多视角观察和语言输入并输出一系列 6 自由度(DoF)动作。
Jun, 2022
Voxel-informed Language Grounder is a language grounding model that leverages 3D geometric information to improve grounding accuracy on SNARE, achieving SOTA results with a 2.0% absolute improvement.
May, 2022
通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识,我们提出了一种基于物理概念的视觉语言模型(VLM),并将其与基于大语言模型的机器人规划器结合使用,取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外,在真实机器人上展示了物理概念视觉语言模型的好处,提高了任务成功率。
Sep, 2023
3D-VL 模型面临语言输入样式的敏感性,本研究通过提出一个语言鲁棒性任务和设计 3D 语言鲁棒性数据集评估现有模型的性能,在各种 3D-VL 任务中发现所有模型性能显著下降。现有模型存在脆弱和偏置的融合模块,缺乏多样性的现有数据集是其根源,最后通过由 LLM 驱动的无需训练模块来提高语言鲁棒性。
Mar, 2024
该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型(VELMA),它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互,相比先前的研究,在两个数据集中,VELMA 完成任务的成功率相比前者提高了 25%-30%
Jul, 2023