- MAGIC:元能力引导下的有效高效视觉语言导航链式蒸馏
这篇论文介绍了使用知识蒸馏来获得轻量级学生模型的巨大潜力,其中提出了一种元能力引导的交互式蒸馏链(MAGIC)方法,该方法可帮助将大型模型集成到机器人技术中,该方法在视听导航任务中超越了现有的先前方法,同时提出了一种新的数据集,展示了 MA - 告诉我你在哪里:多模态 LLMs 相遇地点识别
使用多模态大语言模型 (MLLMs) 来进行视觉地点识别,结合视觉观测和语言推理,借助视觉特征和 MLLMs 的推理能力,提供有效的地点识别解决方案。
- HYPERmotion: 自主定位操控的混合行为规划学习
提出了一种基于 HYPERmotion 框架的自主学习与行为规划方法,该方法结合了强化学习和全身优化,并且利用复杂的环境信息和大型语言模型的规划和推理功能,可以使机器人实现高自由度的行为适应性。
- 利用局部性提高机器人操作中的样本效率
SGRv2 是一种通过改进视觉和动作表示来提高样本效率的模仿学习框架,其中关键的归纳偏置 - 动作局部性假设认为机器人的动作主要受目标物体及其与局部环境的交互影响。在模拟和真实环境中进行的广泛实验证明了动作局部性对提高样本效率的重要性。SG - 通过视觉运动链预测来扩展操作学习
提出了一种基于视觉运动链的精确和通用的机器人学习表示方法,该方法不需要手动调整,可以从机器人的模型和相机参数自动获取。通过使用单个目标进行最优点集匹配的训练,演示了 Visual Kinematics Transformer (VKT) 在 - 稀疏彩码网络:边缘设备上基于实时 RGB 的六维物体姿势估计
我们提出的 Sparse Color-Code Net (SCCN) 是一个清晰简洁的流水线设计,通过利用目标物体的稀疏几何特征加快计算过程,在 RGB 图像上对目标物体进行像素级预测,同时引入了基于像素级几何的物体对称表示方法,有效解决了 - 基于地图的模块化方法用于零说明笔体问答
提出了一种基于地图的模块化 EMQA 方法,通过基于边界的地图创建,使用支持开放词汇表的基础模型,使得真实机器人能够在未知环境中导航,并针对未知问题答案对进行处理,在虚拟环境和两个真实家庭环境上进行了综合实验,证明了方法在真实世界中的有效性 - 机器人场景中的上下文能力与安全探索
利用环境适应性的概念实现安全探索和学习,进而改善家庭机器人的成功率和收敛速度,并为未来的人机交互探索奠定基础。
- 在仿真环境中评估实际机器人操纵策略
机器人学中的评估与模拟环境之间的控制和视觉差异是可靠的模拟评估的关键挑战,在创建适用于常见真实机器人设置的 SIMPLER 模拟环境的基础上,我们证明了在这些环境中的政策表现与真实世界中的表现之间的强相关性,同时准确反映了真实世界的政策行为 - 普遍地点识别综述:朝向真实世界自主性
这篇论文在研究机器人领域中呈现了地点识别(PR)的关键技术作用,特别是在同时定位与建图(SLAM)2.0 的框架下。通过综述 PR 的最新技术进展和挑战,强调了 PR 在机器人领域广泛应用的重要性,并提供了一个面向新开发和基准测试的开源包, - 从 LLMs 到行动:潜在代码作为层次机器人控制中的桥梁
我们提出了一种名为 LC (学习型潜在代码桥接) 的新方法,用于在层次控制中克服自然语言的限制,并实现端到端微调,以在需要推理和多步行为的任务中优于仅使用纯语言作为接口层的基线。
- 预测不确定性和多样性在体验智能和机器人学习中的作用
机器人学中的不确定性一直是一个关键领域的研究,特别是在机器人配备了分析模型时。随着我们逐步推广使用在研究环境中表现出色的深度神经网络的机器人,了解不确定性的细微差别对于它们在现实世界中的部署变得至关重要。本指南提供了关于不确定性重要性的概述 - ScrewMimic: 人类视频中的螺旋空间投影双手模仿
利用人类示范视频和自我监督策略微调,我们提出了一种名为 ScrewMimic 的框架,通过将两只手之间的相互作用建模为串行运动链形式进行双手操作,从而实现机器人学习双手操作行为。实验结果表明,ScrewMimic 能够从单个人类示范视频中学 - 迁移学习在少样本水果分割中的应用
我们提出了一种为农田水果开发的少样本语义分割框架,采用迁移学习策略,在没有公开标记数据的情况下实现了水果在农田中的准确语义分割。
- 映射未知:使用基础模型的统一提示式全景映射与动态标注
通过使用自然语言提示词,我们介绍了统一的可提示全景映射(UPPM)方法,将动态标注策略与传统的全景映射技术相结合,实现实时、按需的标签生成,并在场景重建中表现出良好的适应性和多功能性。
- 机器人中的 NeRF:一项综述
我们的调查分为两个主要部分:Neural Radiance Field 在机器人领域的应用和 Neural Radiance Field 在机器人领域的进展,从 Neural Radiance Field 进入机器人领域的角度。在第一部分中 - 从互联网视频中迈向通用机器人学习:一项调查
该研究综述了在强化学习和机器人领域中学习视频的方法,重点关注能够扩展到大规模互联网视频数据集,并从中提取关于世界动力学和人类行为的基础知识的方法。该综述介绍了学习视频的基本概念、相关挑战以及应对方法,并讨论了学习视频的机器人学习方法和数据集 - PoseINN:基于可逆神经网络的实时视觉姿态回归与定位
使用可逆神经网络来解决相机估计主题中的高计算成本问题,提供类似于当前最先进技术模型的性能,但更快速训练且只需要离线渲染低分辨率合成数据,同时还能提供输出的不确定性估计。
- Spot-Compose: 点云中的开放词汇物体检索和抽屉操作框架
将现代深度学习技术和大规模数据集应用于 3D 实例分割、抓取姿态估计和机器人学领域,以构建一个综合框架,实现在以人为中心的环境中的机器人交互和操控。
- 统一场景表示与手眼标定的三维基础模型
利用 3D 基础模型,本研究提出了一种名为 JCR 的方法,可以在机器人系统中同时构建环境表示和相机标定,无需专用标定标志,并且是使用低成本的 RGB 相机进行的。