- SpatialBot:基于视觉语言模型的精确空间理解
通过为 Vision Language Models 提供 RGB 和深度图像,我们提出了 SpatialBot 来改进其对空间的理解能力,并构建了 SpatialQA 数据集用于训练深度理解,最后通过 SpatialBench 对其在不同 - 在行动中联系多模态大型语言模型
通过研究行为空间适配器,我们发现多模态大型语言模型在融入多种方法并处理连续行为和离散行为时可以获得最佳性能。
- 联合演示与偏好学习改善与人类反馈的政策对齐
将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF(Alignment with Integrated Human Feedback)” 的单阶段方法,能够集成人类偏好和演示来训练奖励模型 - 视觉语言行为模型在具身人工智能中的调查
综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。
- 生成式摄像镜头推车:极端单目动态新视角合成
提出了一种利用大规模扩散先验的可控单眼动态视图合成管道,通过给定任何场景的视频,根据一组相对相机姿态参数,从任意其他选定的视角生成同步视频。
- 语言辅助下的场景检索:我在哪里?
使用自然语言接口和语境 AI 的研究,探索以自然语言查询来识别 3D 场景图的场景检索方法,并介绍了 Text2SceneGraphMatcher 的学习框架和数据集。
- GOAT-Bench: 多模式终身导航基准
通过 GOAT-Bench 实现了能够处理多种目标类型的通用导航模型,分析了强化学习和模块化方法在 GOAT 任务中的性能,以及在不同场景和噪声下的鲁棒性和记忆对其影响。
- 通过逆事实扰动将语言计划与演示相结合的基础
利用大型语言模型对物理领域中的常识推理进行基础性指导和解决工作,通过任务结构和约束的搜索,使用人类示范和模拟干扰生成覆盖训练数据集,并通过解释性学习方法来提高模仿学习的可解释性和反应性。
- NavCoT: 基于学习的解耦推理,提升基于 LLM 的视觉与语言导航
通过构建导航思维链(NavCoT)进行领域内训练的新策略,提高了基于大型语言模型(LLM)的自主导航决策性能以减少领域差距。NavCoT 相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越,并通过简单的参数微调在 R2 - DOZE: 动态环境中开放词汇零射击物体导航的数据集
零射对象导航 (ZSON) 需要在陌生环境中自主定位和接近看不见的物体,它是体验智能领域中的一项特别具有挑战性的任务。我们提出了一个在动态环境中进行开放词汇的零射对象导航数据集 (DOZE),包括十个高保真度的 3D 场景及超过 18,00 - 基于视频的 VLM 为视觉与语言导航规划下一步
NaVid 是一个基于视频的大型视觉语言模型,通过动态的视频流输入,无需地图、测距仪和深度信息,实现了最先进水平的导航性能,解决了里程计噪声和模拟环境到真实环境之间的缺陷,同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景,通过对 - 跨领域政策迁移的综合调查和实例研究
通过对现有跨域策略转移方法进行系统审查,我们对每个问题设置的总体见解和设计考虑进行了细致的分类,并对跨域策略转移问题中使用的关键方法进行了高层次讨论。最后,我们总结了当前范式能力之外的开放挑战,并讨论了该领域可能的未来发展方向。
- 任务成功并不足够:调查使用视频 - 语言模型作为行为批评家以捕捉不良代理行为
在具体 AI 领域,利用大规模生成模型结合外部验证者,根据验证反馈逐步迭代推导最终解决方案,以验证是否达到说明中的目标条件,以便无缝整合到日常生活中,超越任务成功,和大范围的约束和个人偏好,为此构建一套测试基准,通过全面评估视觉与语言模型在 - ICML呼唤具象人工智能
我们提出了 “具身人工智能” 作为追求 “人工通用智能” 的下一个基本步骤,并对其与当前人工智能进展,特别是大型语言模型进行对比。我们横跨哲学、心理学、神经科学和机器人技术等多个领域探讨了具身概念的演变,以突显具身人工智能如何与静态学习的经 - 可提示行为:个性化多目标奖励从人类偏好
本文提出了一个名为 Promptable Behaviors 的新型框架,用于在复杂环境中有效个性化机器人代理以满足多样化的人类偏好。通过使用多目标强化学习训练一个适应广泛偏好的单一策略,并引入人类示范、轨迹比较的偏好反馈以及语言指令等三种 - LEMON:从 2D 图像中学习 3D 人体物体交互关系
利用 3D 人物 - 物体交互关系的内在相关性,LEMON 是一个统一模型,通过提取几何相关性并利用曲率来预测交互元素,超越了单独估计每个元素的方法。
- Holodeck: 语言引导的 3D 体验 AI 环境生成
Holodeck 是一个生成 3D 环境的系统,利用大型语言模型(GPT-4)和大量 3D 资源自动生成多样化的场景,并通过优化布局满足空间关系约束,该系统在住宅场景中优于手动设计的程序化基准,并在 Embodied AI 中训练出具备导航 - UniTeam:开放词汇移动操控挑战赛
该研究介绍了我们的 UniTeam 代理 —— 一个改进的基线模型,用于处理在陌生环境中的导航问题、新物体的操作问题以及开放词汇的物体识别问题。通过评估基线代理的性能,并改善感知、导航和操作技能,实现了在感知方面的缺陷最小化、导航方面的无限 - 基于扩散的内嵌任务规划框架:不确定环境下的计划作为修复
在这篇研究论文中,我们提出了一个统一的框架,包括端到端可训练方法和规划算法,用于解决具有挑战性的具体任务规划问题。我们使用一种名为 'planning as in-painting' 的任务无关方法,在部分可观察环境下,结合语言指令和感知输 - 选择性视觉表现提升具身人工智能的收敛性和泛化能力
基于选择性注意力的体感人工智能的参数高效的视觉刺激过滤方法在目标导航和目标位置变换等任务中展现出最先进的性能,并且在其他仿真环境中具有更好的泛化性和更快的收敛速度。