- 以场景为驱动的多模态知识图构建用于具象人工智能
通过结合传统的知识工程和大型语言模型,我们提出了一种以场景驱动的多模态知识图谱构建方法,用于知识表示和增强室内机器人功能。我们通过实例化 ManipMob-MMKG 评估了我们方法的优势,在数据收集效率和知识质量方面具有广泛的优越性。实验结 - Mini-BEHAVIOR: 基于过程生成的长时决策机载人工智能评测基准
我们提出了 Mini-BEHAVIOR,一个新颖的基准,用于对智能体进行理性和决策方面的挑战,以解决类似于日常人类挑战的复杂活动。Mini-BEHAVIOR 提供了一个快速、开放式的评估机制,用于评估具体决策和规划解决方案在具体化的 AI - MAEA:多模态归因嵌入式人工智能
理解多模态感知以支持具体人工智能是一个开放性问题,因为这些输入可能既包含高度互补的信息,也存在冗余的信息。我们提出了 MAEA 框架,以计算每个可微策略的模态全局归属,并展示了如何应用归属性分析 EAI 策略中的语言和视觉归属性进行低层行为 - 嵌入式人工智能可泛化操作技能的两阶段微调策略
通过在 Maniskill2 基准测试中提出的新型两阶段微调策略,我们展示了我们方法的有效性,并在 ManiSkill2 挑战的所有三个赛道中获得第一名,突出了我们方法提高体验式人工智能模型的泛化能力的潜力,为其在实际场景中的实际应用铺平了 - HabiCrowd: 一个专为关注群众的视觉导航而设计的高性能模拟器
本文介绍了 HabiCrowd,这是第一个将人群动态模型与不同人物设定集成到逼真环境中的视觉导航基准,实证评估表明,我们提出的人体动力学模型在避碰方面具有卓越的计算效率和最新技术性能,利用 HabiCrowd 进行了人群感知视觉导航任务和人 - 二元交互的因果表示学习
本文提出了一种新的方法 BISCUIT,以识别多种常见设置中的因果变量及其二进制交互变量,并在三个仿生机器人数据集上准确地识别因果变量和其交互变量。
- 您的房间并非私有:深度 Q 学习的梯度反演攻击
本文旨在通过使用梯度反演攻击 Deep Q-Learning 算法来解决内含隐私信息泄露的问题,并验证了该方法在实验中的有效性。
- 不训练你的龙:利用语义前沿进行无需训练的物体目标导航
该篇论文介绍了一种模块化的训练免费方案,利用经典的 V-SLAM 框架构建结构化场景表示,并注入语义和统计信息,通过感知物体类别和语义信息指导智能体进行探索和导航任务。
- EmbodiedGPT: 基于身体思维链的视觉 - 语言预训练
介绍了 EmbodiedGPT,一种多模式基础模型,用于具有多模式理解和执行能力的具体智能体,可在物理环境中计划和执行动作序列,从而显着提高了具体控制任务的成功率。
- LLM 作为机器人的大脑:统一自我中心记忆和控制
本文提出了一个名为 LLM-Brain 的新型机器人控制框架,旨在利用大规模语言模型作为机器人的大脑,统一身体自我感知记忆和控制,并利用多模态语言模型来实现机器人任务的零样本学习。该框架可以通过多轮对话实现感知、规划、控制和记忆等任务,并通 - 习惯和目标的协同作用:行为的变分贝叶斯框架
该研究提出了一种使用变分贝叶斯理论桥接惯常性和目标导向性行为相互作用的框架,通过引入用于生成习惯性行为的意图先验分布和用于生成目标导向性行为的意图后验分布的贝叶斯潜变量,实现了两种行为的技能共享,并且其能够使代理程序轻松地从习惯性行为泛化到 - 寻找一个为具身智能而设计的人工视皮层的进展
该研究是关于预先训练视觉表示(PVRs)或视觉基础模型在具体应用中的最全面的实证研究。研究发现,尽管数据规模和多样性通常能提高性能,但是没有任何一种 PVR 可以普遍占优。然而,通过对 VC-1 进行特定任务适应性的调整,可在 Cortex - CVPR从点云中学习人与机器人之间的交接
本研究提出了第一个适用于基于视觉的人机递送控制策略学习的框架,使用带动态仿真环境的两阶段教师 - 学生框架,该框架使用运动规划、抓握规划、强化学习和自我监督等方法,可以在模拟实验基准测试、模拟到模拟的转换和模拟到真实的转换中显著提高性能,同 - Alexa Arena: 面向用户的交互式平台 —— 拥抱智能体验的新世界
介绍了人机交互仿真平台 Alexa Arena,提供多房间布局和互动对象,支持开发面向人类用户的、可游戏化的机器人任务,以支持高效的人机交互数据收集和嵌入式智能体系统评估,并提供了基准结果。
- ICLRManiSkill2: 通用性操作技能统一基准
ManiSkill2 是 SAPIEN ManiSkill 基准的下一代版本,它包含 20 个操作任务族,2000 多个物体模型和 4M 多演示帧,定义了一个统一的界面和评估协议,支持各种算法,视觉观察和控制器,并赋予快速视觉输入学习算法的 - ReVoLT:基于关系推理和 Voronoi 图局部规划的目标导向导航
ReVoLT 是一个分层框架,用于实现基于目标驱动的导航任务,由物体检测视觉前端、高层推理者、中间层计划者和低层控制器组成,并使用多层语义空间拓扑图和多种结构化关系先验知识。与最先进的方法相比,该框架在目标导航任务中表现良好,泛化能力强,性 - 具备交互式仿真环境的人与机器人协同的手术机器人学习
本文研究人形态智能的应用于外科机器人学习的新交互式模拟平台,以人机交互的形式,以增加更有效的策略学习,通过收集人类示范并模仿动作模式,展示了仿真环境的改进和验证最先进的强化学习算法。
- 具有一般监督信号的具身代理
利用 Scene Graph Contrastive (SGC) loss 来训练具有实际效果的体验式人工智能代理,其利用神经体系结构和自我监督目标以提高表现学习,即时不利于任务相关信息的编码。这种方法广泛适用且简单易行,可以鼓励代表的编码 - Ask4Help:学习如何利用专家完成具身任务
本文研究使用 Ask4Help 策略允许智能体请求和使用专家援助以提高其性能,并在物体目标导航和房间重排两种场景下得到了实质性的改进。
- VRKitchen2.0-IndoorKit: Omniverse 增强现实室内场景建模教程
通过介绍 INDOORKIT 工具包,为研究者提供 NVIDIA OMNIVERSE 内置的工具包,以实现灵活的管道 包括室内场景的构建、场景随机化和动画控制,辅助研究者在创造实时培训和控制角色扮演和机器人方面。