- RoboUniView: 统一视角表征的视觉语言模型用于机器人操作
利用视觉语言模型(VLMs)进行机器人操纵的研究提出了一种新的范式,旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异,该研究提出了 RoboUniView 方法,该方法从多个视角学习统一的视图表示,并从该 - 等变离线强化学习
通过使用有限数量的演示,本研究探讨了在离线强化学习中使用 $SO (2)$- 等变神经网络的可能性,并通过实验证明了等变性如何提高低数据情况下的离线学习算法。
- 缓解机器人操作中的人机领域差异问题
利用人机视频数据进行对齐来适应预先训练模型到机器人领域,在多个任务中实现了显著的成功率提升。
- 语言引导的多任务机器人操作的对比模仿学习
本文介绍了一种多任务机器人操纵的逐字逐句学习方法,该方法通过自然语言指令和视觉观察实现在复杂真实环境中执行各种操纵任务的机器人代理。
- 预测交互来学习操控
通过预测交互进行操纵的学习,提取可视化表示,并且在真实世界和仿真环境中实现了 10% 至 64% 的显著性改进。
- 以触摸为基础的感觉集成技能转移用于机器人家具装配
这篇论文介绍了一种离线强化学习方法,使用触觉反馈在控制循环中,来解决机器人家具装配问题。通过学习高层规划的技能转换模型和一组自适应的技能达成目标策略,这种设计旨在以更通用的方式解决这个长期任务,实现技能的无缝连接。评估结果表明,这种方法在标 - CenterArt:关节物体的形状重建和六自由度抓取估计
提出了 CenterArt,一种用于同时进行 3D 形状重建和关节体 GRASP 估计的新方法。通过 RGB-D 图像进行输入,利用编码器预测形状和关节代码,再通过解码器重建 3D 形状和估计物体的 6 个自由度的 GRASP 姿势。使用包 - DoughNet: 一个用于变形物体拓扑操作的视觉预测模型
利用 DoughNet,这是一个基于 Transformer 的架构,可以准确预测弹塑性物体中可能引发的拓扑变化,从而帮助计划弹塑性物体的相互作用和机器人操作。
- 基于复杂形状的双臂操作中约束的 6 自由度抓取生成
提出了一种基于扩散的抓取生成模型 CGDF(Constrained Grasp Diffusion Fields),它可以适应任意物体的复杂几何形状,并在目标区域上生成密集的抓取。通过使用部分引导的扩散方法,实现了高效率的约束抓取,无需通过 - PreAfford: 基于普适性可操作性的多样物体和环境预抓取
Robotic manipulation of ungraspable objects is improved using the PreAfford pre-grasping planning framework, leading to - 跨越语言、视觉和行动:多模态 VAEs 在机器人操作任务中的应用
我们关注机器人操作中无监督的视觉 - 语言 - 行为映射,探索多模态变分自编码器在无监督机器人操作任务中的应用,并提出一种模型不变训练方法,成功提高模型在模拟环境中的性能,并对个体任务的挑战进行了系统评估,揭示了当前多模态变分自编码器在基于 - 通过利用在线生成的经验,加速多机器人操作的搜索规划
通过利用冲突基础搜索算法的重复和增量特性,加速搜索算法的方法使其适用于多臂协调和复杂环境中的机器人操作,从而达到完整和有界的次优性保证。
- ManiPose:机器人中姿态感知物体操作的全面基准
ManiPose 是一个旨在推进姿势多变的操作任务研究的开创性基准,它包含模拟环境、数据集和基准,并在姿势估计、姿势感知操作和真实机器人技能迁移等方面取得了显著进展。
- ManiGaussian: 多任务机器人操作的动态高斯溅射
在这篇论文中,我们提出了一种名为 ManiGaussian 的动态高斯斑点方法,用于多任务机器人操作,该方法通过未来场景重建来挖掘场景动态性。我们首先制定了动态高斯斑点框架,推断高斯嵌入空间中的语义传播,利用语义表示来预测最佳机器人动作。然 - 通过组合泛化实现机器人操作的高效数据收集
通过大规模机器人数据收集,研究表明,在考虑环境因素的情况下利用组合性训练数据,可以更好地提高机器人政策的泛化能力,从而避免收集针对特定情况的数据。
- 基于触觉的颗粒介质中物体检索
GEOTACT 是一种能够从颗粒介质中挖掘出埋藏物体的机器人操控方法,通过纯粹依靠触觉反馈与颗粒介质交互,以及通过学习方法训练来降低噪音干扰,并成功在真实硬件上实现了从颗粒环境中可靠地获取不同物体的目标。
- 多批评家技能学习
我们提出了 SLIM,一种多批评家学习方法,它通过在演员 - 评论家框架中优雅地结合多个奖励函数,显著提高了机器人操作的潜在变量技能发现,克服了可能干扰收敛到有用技能的奖励之间的干扰,并展示了在桌面操作中,我们方法在获得安全高效的运动基元方 - 基于 YOLO 的学习方法的农业实时目标检测与机器人操控
该研究提出了一种新的框架,将两种不同的卷积神经网络结构相结合,以在模拟环境中同时完成作物检测和收获(机器人操控)任务。利用机器视觉实现作物自动识别,提高收获效率,但仍面临挑战。通过随机旋转、裁剪、亮度和对比度调整来生成增强图像以进行数据集生 - 双臂精细操纵的多任务机器人数据
该研究介绍了一个包含双臂任务和 / 或需要细致操纵的多样化对象操作数据集,数据集包括 224k 个剧集、双臂精细任务以及语言指令,并应用于 Dual-Action and Attention (DAA) 模型,该模型在真实机器人操作任务中展 - Robo-ABC: 通过语义对应实现机器人操作中的类别以外物体能力泛化
通过从人类视频中提取联系点、并借鉴人类思维方式,我们提出了 Robo-ABC 框架,在不需要任何手动注释、附加训练、部分分割、预编码知识或视角限制的情况下,使机器人能够通过检索视觉或语义上相似的对象来获得关于操作性的信息,并将其映射到新对象