- 将代理程序对齐,如同大型语言模型一样
通过仿真学习和对齐模型的方法,本论文研究了如何在复杂的三维环境中训练代理模型以符合特定的行为需求。
- 机器人中的 NeRF:一项综述
我们的调查分为两个主要部分:Neural Radiance Field 在机器人领域的应用和 Neural Radiance Field 在机器人领域的进展,从 Neural Radiance Field 进入机器人领域的角度。在第一部分中 - Transcrib3D:通过大型语言模型解决 3D 指示表达
如果机器人要与人类有效地共同工作,它们必须能够解释其 3D 环境中的物体的自然语言指示。Transcrib3D 是一种结合了 3D 检测方法和大型语言模型(LLMs)新兴推理能力的方法,通过使用文本作为统一介质,绕过了学习连接多模态输入的共 - 在众多模拟世界中扩展可指示代理
通过在虚拟 3D 环境中训练智能代理系统,使其能够在任何 3D 环境中遵循任意语言指令,这是创建通用人工智能的关键挑战。本文介绍了 Scalable, Instructable, Multiworld Agent (SIMA) 项目,该项目 - 基于视觉辅助的毫米波波束管理数字孪生创建
在通信网络的背景下,数字孪生技术提供了一种复制无线电频率(RF)传播环境和系统行为的方法,从而实现基于仿真的已部署系统性能优化的方式。我们提出了一个实用的数字孪生创建流程和一个仅依赖单个安装摄像头和位置信息的通道模拟器,通过使用 DeepS - MultiPLY:一个多感官,以物体为中心的基于体验的大型语言模型在 3D 世界中
为了研究多感官交互和语言模型之间的相关性,我们提出了 MultiPLY,一个多感官体验的大型语言模型。通过将多感官交互数据引入大型语言模型,包括视觉、听觉、触觉和热觉信息,我们能够建立单词、行为和感知之间的关联。
- CVPR可渲染的神经辐射图用于视觉导航
本研究提出了一种新型的神经辐射图的可渲染地图,利用神经辐射场使得可以通过一个相机姿态进行图像渲染,并开发出可以有效利用这种神经辐射图进行定位和导航的框架。在各种测试中,我们证明了该框架的有效性和优于现有方法的普适性。
- EMNLP连续环境下视觉语言导航的语言对齐航点(LAW)监督
本文针对视觉语言导航任务提出了一种基于自然语言的导航方法,通过一个新的衡量指标来度量环境导航中代理人遵循指令的准确度。
- 用于视觉运动控制的三维神经场景表示
本文提出了一种从 2D 视觉观察中学习动态 3D 场景模型的方法,结合神经放射场、时间对比学习和自动编码框架,可以学习到视点不变的 3D 感知场景表示,进而实现包括刚体和流体在内的具有挑战性的操作任务的视觉运动控制和未来预测,并支持摄影机视 - CVPRSceneGraphFusion:基于 RGB-D 序列的增量式 3D 场景图预测
本文提出了一种利用图神经网络从三维环境中给定的一系列 RGB-D 帧逐步建立语义场景图的方法,并提出了一种适用于部分和缺失图数据的新型注意机制。实验表明,我们的方法在某些方面表现优于三维场景图预测方法,并且精度与其他三维语义方法和全景分割方 - 基于 LiDAR 的循环 3D 语义分割及时间记忆对齐
该论文讨论了自动驾驶汽车中的 3D 环境理解和解释问题,提出了一种基于递归分割架构的方法,该方法将时间序列信息与语义学信息相结合,充分利用了时间信息,提高了分割结果的准确性和效率。
- AAAI面向语义分割的视觉活动学习
本文研究了具体化视觉主动学习任务,该任务通过选择性的视野请求注释来探索三维环境,以获取场景理解,我们通过开发一系列智能体来研究具体化视觉主动学习,其中智能体配备语义分割网络,并使用深度强化学习以及奖励函数平衡任务性能和必要注释数据请求,得到 - 学习 3D 环境中互动探索的可承受性景观
本研究利用增强学习方法,通过自主探索实现对未经探测的三维环境的机器人智能互动,其中包括对可利用对象的发现、高效自主行动的学习以及使用基于图像的可利用区域分割模型。实验表明,基于该方法的机器人可以智能地操作新的家居环境,并为进行下游任务,如 - ICLR学习为视听导航设置路径点
本文介绍了一种基于强化学习的音视觉导航方法,通过动态设置和学习的航点和声音记忆,利用视觉和声音数据揭示了未映射空间的几何结构,实验结果表明,学习视听空间之间的联系对于音视觉导航至关重要。
- VideoNavQA: 填补视觉与行为问答之间的差距
本文提出了一种基于身体的问答任务,即 Embodied Question Answering,通过放置一个 agent 在 3D 环境中,学习结合场景理解、导航和语言理解等能力,实现在视觉世界中进行复杂推理。为了探索 EQA 系列任务的可行 - 使用逼真丰富的 3D 环境构建具有泛化能力的智能体
提出一种基于数据增广的强化学习方法,其中使用一个具有 45,622 个人工设计的房屋场景的模型 House3D 进行模拟,结果显示基于数据增广的模型比原始模型的导航成功率提高了 8% 以上。
- 具身化问答
本文介绍了一项新的 AI 任务 -- 实体问答(EmbodiedQA),其中智能体在随机位置生成于 3D 环境中,通过主动感知、语言理解、目标导向的导航、常识推理和语言行动化等一系列 AI 技能完成问答任务,同时我们也开发了 Embodie - 在模拟的 3D 世界中的基于场景语言学习
通过增强和无监督学习,训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令,将语言符号与周围物理环境的感知表示和相关的行动序列联系起来,实现语言含义的压缩和提取,从而揭示出关于语言基于感知概念的本质和潜力。
- 三维环境与平方和多项式几何
运用代数学方法,本文研究了利用函数多项式下水平集进行三维空间推理的问题,包括两个基本半代数凸集之间互相包含的相关计算、相交的两个半代数凸集之间的分离、多个半代数集合与一个凸集的紧凑包含等,并且我们将这些任务的求解转化为小型半定规划并进行了实