- MMRo: 多模式 LLM 是否适合作为家用机器人的大脑?
评估多模态大型语言模型在机器人应用中的能力和可靠性,提出了第一个多模态 LLM for Robotic(MMRo)基准测试,并从感知、任务规划、视觉推理和安全度量等四个关键能力角度对现有模型的性能进行了实验评估,结果表明目前的模型还不足以信 - 人工智能机器人中数字孪生系统的隐私攻击综述
通过整合人工智能 / 机器学习(AI / ML)和数字孪生(DT)技术,工业 4.0 见证了复杂机器人的崛起。本文调查了针对 AI 和 DT 模型启用机器人的隐私攻击。讨论了 ML 模型的渗透和数据泄露,以及从一阶模型(如基于物理的模型)中 - InstructNav:零封闭的通用指令导航系统在未知环境中
通过引入动态导航链和价值地图,以及零样本学习的方式,提出了 InstructNav 系统来解决多种导航指令的统一规划,该系统在任务完成上优于以往方法。
- 视频 - 语言评论家:用于语言条件机器人的可转移奖励函数
基于视频 - 语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中,通过在 Open X-Embodiment 数据上训练奖励模型, - IJCAI机器人语言连接的调查:符号与嵌入之间的权衡
大型语言模型和机器人之间的映射,从语言和手动定义的意义形式表征到语言和高维向量空间之间的映射,有利于理解语言、限制学习问题规模以及提供解释性和正式安全性保证。将语言和感知数据嵌入高维空间可以避免手动指定的象征性结构,但需要更多的数据和计算进 - 无处不玩:基于时态逻辑的游戏环境独立方法在机器人足球中的应用
通过引入基于时态逻辑的方法,使机器人的行为和目标能够适应环境语义,实现在非结构化环境中进行足球比赛的能力。
- 利用组合生成模型进行功能对象布置
本研究通过引入 SetItUp 框架,研究了开发能够理解模糊指令以创建功能性物体布局的机器人的挑战。SetItUp 利用少量的训练示例和人类设计的程序草图来揭示特定场景类型的布局规则,并利用抽象的空间对象之间的图形表示将布局问题分解为两个子 - 生物和机器人系统无模型强化学习的深入研究:理论与实践
动物和机器人存在于物理世界中,并必须协调其身体以实现行为目标。最近在深度强化学习方面的发展使得科学家和工程师可以利用物理模拟的身体和环境来获得特定任务的感觉运动策略(策略)。然而,这些方法的效用超出了特定任务的限制;它们为理解动物感觉运动系 - 一种面向容错执行器的最优弹性规划模型
机器人在组件故障的情况下需要调整其行为,以便在降低能力的条件下实现仍然可达的目标。我们在马尔可夫决策过程(MDP)框架中提出了在提前已知易受故障的执行机构的情况下进行规划的问题。该模型捕捉了基于利用驱动的故障和状态 - 动作相关的执行机构故 - CVPRUniGarmentManip:一种基于密集视觉对应的类别级服装操作统一框架
通过自我监督学习,在特定类别中学习衣物的拓扑密集(点级)视觉对应,以指导各种下游任务的操作策略,而只需进行一次或少量示范。
- LTLDoG:满足时间延伸的符号约束的安全扩散规划
基于有限线性时态逻辑(LTLf)的指令,本研究提出了一种数据驱动的扩散式框架(LTLDoG),用于在复杂环境中生成遵守新的静态和时间延伸的约束 / 指令的远景轨迹,并在机器人导航和操纵的实验中验证了其有效性。
- 使用 Gemini 引导任务树:方法与见解
机器人是未来的每个技术领域,每个先进技术最终都将被用于制造更高效的机器人。本文阐述了如何利用非结构化知识表示,并借助提示工程将其转化为有意义的结构化表示,最终用于机器人,帮助它们理解人脑如何通过最少的数据或物体创造奇迹。
- Transcrib3D:通过大型语言模型解决 3D 指示表达
如果机器人要与人类有效地共同工作,它们必须能够解释其 3D 环境中的物体的自然语言指示。Transcrib3D 是一种结合了 3D 检测方法和大型语言模型(LLMs)新兴推理能力的方法,通过使用文本作为统一介质,绕过了学习连接多模态输入的共 - 模糊本体中结构化场景的增量引导和分类
本文介绍了一种在模糊领域中重塑 Scene Identification and Tagging(SIT)算法的方法,利用模糊 DL 本体论来克服其感知噪声问题,并通过与清晰实现的 SIT 的性能比较展示了模糊 SIT 的鲁棒性,保留其清晰 - 社会导航中追随人类线索
基于机器人的状态 - 动作历史,提出了第一个社交动力学适应模型(SDA),用于推断社交动态。在共享环境中,机器人通过学习人类轨迹并基于该信息、当前状态和前一动作学习运动策略,成功实现了人机协作和社交导航。通过在 Habitat 3.0 平台 - TaCOS: 任务特定仿真相机优化
通过将无导数和基于梯度的优化器结合,利用计算机图形学技术和物理摄像头特性,我们提出了一种新颖的端到端优化方法来为特定机器人任务设计摄像头,通过软件原型设计摄像头、模拟操作环境和任务以及优化摄像头设计,从而提高机器人在其应用中的性能。
- LOSS-SLAM: 轻量级开放集合语义同时定位与地图构建
基于对象的开放式语义定位与映射(SLAM)系统通过紧密耦合的概率图模型来识别、定位和编码对象,以实现更准确的 SLAM,并承担较低的计算开销。
- 与机器人对话:拓宽参与和研究的 SLIVAR 社区提案
自然人类语言与机器的交互能力已经不仅仅是司空见惯,而且是被期望的。下一步不仅仅是文本界面,而是语音界面;不仅仅与电脑,而是与包括机器人在内的所有机器的交互。本文记录了近期与机器人的口头对话这一快速发展领域的历史,并提出了三项建议:第一是教育 - 自主机器人的持续学习:基于原型的方法
未来的自主智能机器人面临着从非重复稀疏数据流中学习、检测新颖性并具备无监督学习能力的挑战。本文通过提出一种名为 Continually Learning Prototypes (CLP) 的基于原型的方法,解决了这一挑战。CLP 在 FS- - 城市环境下自主探索的楼梯定位
提出了一种用于机器人自主探索城市环境的楼梯定位方法,该方法采用了级联流水线的模块化设计,由楼梯检测、线段检测和楼梯定位模块组成,在仅使用单个 RGB-D 相机的情况下,通过深度学习算法实现了准确的楼梯检测和定位。