基于图形激活奖励学习的通用空间目标表示发现
本文提出了一个在模拟环境中进行空间推理的模型,使用强化学习和广义值迭代方法进行训练,取得了目标定位误差减少 45% 的成果。模型以指令文本为引导,学习世界的表示,对语言和环境进行联合推理,实现了本地邻域与对应词汇的精准对齐,同时处理指令中的全局参照。
Jul, 2017
我们在这篇论文中提出了一种隐式空间地图的目标导航方法,使用 transformer 递归更新隐式地图,并通过辅助任务训练模型,以重构显式地图、预测视觉特征、语义标签和动作。我们的方法在挑战性的 MP3D 数据集上显著优于最先进方法,并且在 HM3D 数据集上具有良好的泛化能力。我们成功地在真实机器人上部署了模型,并在真实场景中只使用了几个真实世界的演示来实现令人鼓舞的目标导航结果。
Aug, 2023
本文提出了一种基于空间推理和 RL 框架的学习方法,通过想象视觉目标并选择适当的行动来完成任务,使用单一外部奖励信号和内部动机来学习,该方法在两个仿真 3D 环境中,进行了验证,并在处理物体排列任务时,优于两个扁平化架构和一个分层架构。
Jan, 2020
本文提出了一种通过主动学习生成语义地图的框架,在未知环境下实现目标物体导航,通过在未观察区域内的语义类别的不确定性进行决策,实现了对场景中语义优先级的学习,并在 Matterport3D 数据库上验证了改进的导航效果。
Jun, 2021
从不受限制的各种观测中提取代理和外部物体在物理空间中的位置的表示学习框架,仅依靠代理执行的动作作为唯一的监督信号,并假设物体通过未知动力学被代理移动,能够确保从中推断出等度量表示,并正确提取它们的位置。
Sep, 2023
智能代理应该是综合性的,能够快速适应和推广不同的任务,提出了一种新的模型类别 - 广义占据模型(GOM),它在保留模型强化学习的综合性的同时避免累积误差,通过直接建模长期结果,GOM 既避免了累积误差,又在任意奖励函数下保持了综合性。
Mar, 2024
该研究考虑了人工智能中尚未开发过的环境在探索方面的问题,并提出了一种从环境分布中学习策略的方法,将其作为强化学习任务来处理,以期能够在最短的步数内访问尽可能多的独特状态。实验结果表明,该方法在空间地图探索和领域特定程序和现实世界移动应用的覆盖率导向软件测试方面表现出色。
Oct, 2019
介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
我们提出了 GOMAA-Geo,一个目标模态不可知的主动地理定位代理,通过跨模态对比学习和监督基础模型预训练以及强化学习相结合的方式,实现高效的导航和定位策略,在广泛评估中表现出超越可学习方法并在不同数据集和目标模态上进行泛化的能力。
Jun, 2024