深度多模态嵌入:使用点云、语言和轨迹操纵新颖物体
本文提出了一种基于自然语言的灵活性极高的人机协作接口,将大型语言模型 (BERT 和 CLIP) 的优势与轨迹信息相结合,通过多模态注意力变换实现对用户命令的编码,并将其与轨迹信息相结合。在包含机器人轨迹的数据集上进行模仿学习,并将轨迹生成过程视为序列预测问题,通过仿真轨迹实验和真实机器人实验验证了该系统的效果优异,并证明了自然语言接口在人机协作中的优越性。
Mar, 2022
利用大型语言模型提取知识,我们在多通道 Swin-Unet 架构的基础上,使用数据驱动的、基于模块的方法进行多任务学习,从而实现了有效的目标导航,超过了基准模型平均 10.6% 的效率指标(SPL),并在现实世界的演示中展示了该方法在穿越多个房间时的高效性。
Mar, 2024
通过引入新颖的机器人操作方法,利用多模态大型语言模型(MLLMs)的强大推理能力,增强操作的稳定性和泛化能力。我们采用 fine-tuning 方法,在保留 MLLM 的常识和推理能力的同时,为其提供操作能力。实验结果表明 ManipLLM 在模拟器和真实环境中均有出色表现。
Dec, 2023
本文提出了一种以机器学习为基础的家庭机器人物品操控规划框架,该框架结合了大规模众包数据集和三种不同形态的语言特征,使得即使对于未曾见过的物品,家庭机器人也能够对其进行操控。
Apr, 2015
本文提出 Cross-Modal Embedding 框架,以利用多个输入模式的信息来解决自动驾驶系统中的交通代理的未来轨迹预测问题。该方法在训练时学习将一组互补特征嵌入到共享潜在空间中,并利用多个传感器模态进行优化,在测试时可利用单个输入模态生成预测,并取得了很好的效果。
Nov, 2020
通过使用 3D 点云来进行语言引导的操纵任务,我们提出了一种名为 PolarNet 的策略,该策略通过精心设计的点云输入、高效的点云编码器和多模态变换器来学习 3D 点云表示并将其与语言指令集成以进行行动预测。在 RLBench 基准测试中,PolarNet 在各种实验中显示出了高效和数据高效性,并在单任务和多任务学习中优于最先进的 2D 和 3D 方法。它在实际机器人上也取得了令人期待的结果。
Sep, 2023
该研究提出了一个灵活的基于语言的框架,使用自然语言输入和场景图像处理机器人运动指令,通过预先训练的语言模型和变压器编码器网络生成目标几何特征,然后使用变压器解码器生成轨迹,无需任何先验知识。在复杂环境下,仿真和实际实验表明,该系统可以成功地跟随人类意图,修改轨迹的形状和速度。
Aug, 2022
提出一个利用多模态传感器融合的方法,能够在一个已知环境中,通过理解该环境搭配环境地图,准确地检测和定位预设物体和障碍物,并相比于单一的传感器能够更准确地检测远处和近处的障碍物。
Jul, 2023
我们提出了一种新的判别模型,它从多语言和多模态数据中学习嵌入,因此我们的模型可以利用多种语言的图像和描述来提高嵌入质量。通过对图像和语句进行排名、对语义文本相似性进行评估,以及对神经机器翻译进行评估,我们发现附加的多语言信号可以改进 ISR 和 STS 任务,并且判别成本也可以用于重新排列 NMT 模型产生的最佳 $n$ 列表,从而产生强大的改进。
Feb, 2017