- 用少数标注实现机器人实例分割技术来抓取物品
该研究提出了一种将半监督学习与通过互动学习相结合的新方法,通过观察场景变化学习和利用视觉一致性,从而实现对物体的操作。在两个基准测试中验证了该方法,取得了卓越的性能。
- 从人物 - 物体互动中学习粒度感知特性,为灵巧机器人的基于工具的功能抓取提供支持
为了使机器人能够使用工具,我们提出了一种从人 - 物互动中学习粒度感知功能性工具握持的方法,该方法利用物体的显著特征来定位功能性作用区域并预测熟练的粗略手势。通过弱监督学习从外心图像中提取相关线索以监督视角中的特征提取,我们的方法在功能手 - MMRo: 多模式 LLM 是否适合作为家用机器人的大脑?
评估多模态大型语言模型在机器人应用中的能力和可靠性,提出了第一个多模态 LLM for Robotic(MMRo)基准测试,并从感知、任务规划、视觉推理和安全度量等四个关键能力角度对现有模型的性能进行了实验评估,结果表明目前的模型还不足以信 - 人工智能机器人中数字孪生系统的隐私攻击综述
通过整合人工智能 / 机器学习(AI / ML)和数字孪生(DT)技术,工业 4.0 见证了复杂机器人的崛起。本文调查了针对 AI 和 DT 模型启用机器人的隐私攻击。讨论了 ML 模型的渗透和数据泄露,以及从一阶模型(如基于物理的模型)中 - InstructNav:零封闭的通用指令导航系统在未知环境中
通过引入动态导航链和价值地图,以及零样本学习的方式,提出了 InstructNav 系统来解决多种导航指令的统一规划,该系统在任务完成上优于以往方法。
- 视频 - 语言评论家:用于语言条件机器人的可转移奖励函数
基于视频 - 语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中,通过在 Open X-Embodiment 数据上训练奖励模型, - MeMo:通过噪声注入实现有意义、模块化的控制器
我们展示了一种新的方法,通过输入单个机器人及其控制器,为每个机器人组件生成一组模块化控制器,从而快速学习并重用这些模块化控制器,提高训练效率。在机器人形态转换和任务转移方面,我们的框架 MeMo 相比其他方法表现出更好的训练效率。
- IJCAI机器人语言连接的调查:符号与嵌入之间的权衡
大型语言模型和机器人之间的映射,从语言和手动定义的意义形式表征到语言和高维向量空间之间的映射,有利于理解语言、限制学习问题规模以及提供解释性和正式安全性保证。将语言和感知数据嵌入高维空间可以避免手动指定的象征性结构,但需要更多的数据和计算进 - 无处不玩:基于时态逻辑的游戏环境独立方法在机器人足球中的应用
通过引入基于时态逻辑的方法,使机器人的行为和目标能够适应环境语义,实现在非结构化环境中进行足球比赛的能力。
- 利用组合生成模型进行功能对象布置
本研究通过引入 SetItUp 框架,研究了开发能够理解模糊指令以创建功能性物体布局的机器人的挑战。SetItUp 利用少量的训练示例和人类设计的程序草图来揭示特定场景类型的布局规则,并利用抽象的空间对象之间的图形表示将布局问题分解为两个子 - 生物和机器人系统无模型强化学习的深入研究:理论与实践
动物和机器人存在于物理世界中,并必须协调其身体以实现行为目标。最近在深度强化学习方面的发展使得科学家和工程师可以利用物理模拟的身体和环境来获得特定任务的感觉运动策略(策略)。然而,这些方法的效用超出了特定任务的限制;它们为理解动物感觉运动系 - 一种面向容错执行器的最优弹性规划模型
机器人在组件故障的情况下需要调整其行为,以便在降低能力的条件下实现仍然可达的目标。我们在马尔可夫决策过程(MDP)框架中提出了在提前已知易受故障的执行机构的情况下进行规划的问题。该模型捕捉了基于利用驱动的故障和状态 - 动作相关的执行机构故 - CVPRUniGarmentManip:一种基于密集视觉对应的类别级服装操作统一框架
通过自我监督学习,在特定类别中学习衣物的拓扑密集(点级)视觉对应,以指导各种下游任务的操作策略,而只需进行一次或少量示范。
- LTLDoG:满足时间延伸的符号约束的安全扩散规划
基于有限线性时态逻辑(LTLf)的指令,本研究提出了一种数据驱动的扩散式框架(LTLDoG),用于在复杂环境中生成遵守新的静态和时间延伸的约束 / 指令的远景轨迹,并在机器人导航和操纵的实验中验证了其有效性。
- 使用 Gemini 引导任务树:方法与见解
机器人是未来的每个技术领域,每个先进技术最终都将被用于制造更高效的机器人。本文阐述了如何利用非结构化知识表示,并借助提示工程将其转化为有意义的结构化表示,最终用于机器人,帮助它们理解人脑如何通过最少的数据或物体创造奇迹。
- Transcrib3D:通过大型语言模型解决 3D 指示表达
如果机器人要与人类有效地共同工作,它们必须能够解释其 3D 环境中的物体的自然语言指示。Transcrib3D 是一种结合了 3D 检测方法和大型语言模型(LLMs)新兴推理能力的方法,通过使用文本作为统一介质,绕过了学习连接多模态输入的共 - 模糊本体中结构化场景的增量引导和分类
本文介绍了一种在模糊领域中重塑 Scene Identification and Tagging(SIT)算法的方法,利用模糊 DL 本体论来克服其感知噪声问题,并通过与清晰实现的 SIT 的性能比较展示了模糊 SIT 的鲁棒性,保留其清晰 - 社会导航中追随人类线索
基于机器人的状态 - 动作历史,提出了第一个社交动力学适应模型(SDA),用于推断社交动态。在共享环境中,机器人通过学习人类轨迹并基于该信息、当前状态和前一动作学习运动策略,成功实现了人机协作和社交导航。通过在 Habitat 3.0 平台 - TaCOS: 任务特定仿真相机优化
通过将无导数和基于梯度的优化器结合,利用计算机图形学技术和物理摄像头特性,我们提出了一种新颖的端到端优化方法来为特定机器人任务设计摄像头,通过软件原型设计摄像头、模拟操作环境和任务以及优化摄像头设计,从而提高机器人在其应用中的性能。
- LOSS-SLAM: 轻量级开放集合语义同时定位与地图构建
基于对象的开放式语义定位与映射(SLAM)系统通过紧密耦合的概率图模型来识别、定位和编码对象,以实现更准确的 SLAM,并承担较低的计算开销。