Splat-MOVER: 多阶段开放词汇机器人操纵通过可编辑高斯Splating
通过结合视觉操作中的语义理解与空间精度,使用基于语言的模仿学习代理CLIPort,可在训练过程中不需要显式地表示对象姿态、实例分割、内存、符号状态或句法结构的情况下,有效地解决各种语言规定的桌面任务,具有数据效率和泛化能力。
Sep, 2021
在这篇论文中,我们提出了一种名为ManiGaussian的动态高斯斑点方法,用于多任务机器人操作,该方法通过未来场景重建来挖掘场景动态性。我们首先制定了动态高斯斑点框架,推断高斯嵌入空间中的语义传播,利用语义表示来预测最佳机器人动作。然后,我们建立了一个高斯世界模型来参数化我们的动态高斯斑点框架中的分布,通过未来场景重建在交互环境中提供信息化监督。我们在10个RLBench任务的166个变体上评估了ManiGaussian,并且结果表明我们的框架在平均成功率上比现有最先进方法提高了13.1%。
Mar, 2024
通过使用GaussianGrasper,可以利用3D高斯喷洒技术将场景明确地表示为一系列高斯原语,并通过语言指令使机器人能够准确查询和抓取对象,为语言引导的操作任务提供了新的解决方案。
Mar, 2024
利用网络训练的文本到图像扩散生成模型,在无样本情况下对细粒度部件描述符进行准确操作,通过将问题框架化为密集语义部件对应任务,返回用于操作特定部件的夹爪位姿,无需手动示教,验证了该方法在真实世界的桌面场景中的实验,证明了其推进语义感知机器人操作的潜力。
Mar, 2024
在未知和动态环境中, 建立并理解空间语义上下文的移动机器人操作任务通过零样本检测和基于视觉-语言模型的密集三维实体重建, 利用大型语言模型进行空间区域抽象和在线规划, 并通过演示在实际机器人实验中取得较高的导航和任务成功率以及基线模型相比更好的成功率和性能, 证明了这种新的框架的有效性。
Jun, 2024
通过结合语言模型 (vision-language models)、分割模型和抓取综合模型,提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG),通过视觉提示机制,借助于开放式自由语言的引导实现零样本应用,展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。
Jun, 2024
本研究解决了机器人对物体部件进行高效和零次抓取的能力问题,弥补了现有方法在场景变化和部件定位上的不足。提出的GraspSplats利用深度监督和新颖的参考特征计算方法,能够在60秒内生成高质量的场景表示,实验证明其在实时抓取采样和动态物体操作方面的优势,显著优于现有方法。
Sep, 2024
本研究旨在解决在复杂、杂乱环境中对同一对象的视觉定位与抓取姿态估计的不足。提出了HiFi-CS方法,通过分层地应用特征线性调制(FiLM)来融合图像和文本嵌入,显著提高了开放词汇设置中的视觉定位精度。实验结果表明,该模型在15个桌面场景中实现了90.33%的视觉定位准确率,展示了其在机器人抓取任务中的潜在影响。
Sep, 2024
该研究解决了在有限视角下,如何高效选择3D高斯点云的最佳视图和触摸位置的问题。通过结合语义深度对齐方法和基于深度不确定性的FisherRF选择技术,提出了一种在线训练的端到端策略,显著提高了在复杂机器人场景中的3D感知性能。研究结果表明,该方法在真实场景中实现了视图选择的定性和定量改善。
Oct, 2024
本研究解决了当前移动操控系统在动态环境中应用的局限性,提出了一种新的动态时空语义记忆DynaMem方法。该方法通过构建3D数据结构和利用多模态大语言模型,实现了对移动对象的实时定位和记忆更新,显著提高了在非静态物体上的抓取成功率,达到了70%。
Nov, 2024