基于图形激活奖励学习的通用空间目标表示发现

ICMLNov, 2022

基于图形激活奖励学习的通用空间目标表示发现

Discovering Generalizable Spatial Goal Representations via Graph-based Active Reward Learning

Aviv Netanyahu, Tianmin Shu, Joshua Tenenbaum, Pulkit Agrawal

TL;DR本文讨论了一种针对物体重新排列任务的单次模仿学习方法，通过基于图等价映射的奖励学习策略发现和学习与目标规范一致的空间目标表达，并与强基线方法相比，显著提高了学习目标表达在不同环境下的泛化能力。

Abstract

In this work, we consider one-shot imitation learning for object rearrangement tasks, where an AI agent needs to watch a single expert demonstration and learn to perform the same task in different environments. To achieve a strong →

imitation learning object rearrangement reward learning graph-based equivalence mappings generalization

发现论文，激发创造

基于感知的空间推理的表示学习

本文提出了一个在模拟环境中进行空间推理的模型，使用强化学习和广义值迭代方法进行训练，取得了目标定位误差减少 45% 的成果。模型以指令文本为引导，学习世界的表示，对语言和环境进行联合推理，实现了本地邻域与对应词汇的精准对齐，同时处理指令中的全局参照。

Jul, 2017

递归隐式地图的目标导航

我们在这篇论文中提出了一种隐式空间地图的目标导航方法，使用 transformer 递归更新隐式地图，并通过辅助任务训练模型，以重构显式地图、预测视觉特征、语义标签和动作。我们的方法在挑战性的 MP3D 数据集上显著优于最先进方法，并且在 HM3D 数据集上具有良好的泛化能力。我们成功地在真实机器人上部署了模型，并在真实场景中只使用了几个真实世界的演示来实现令人鼓舞的目标导航结果。

Aug, 2023

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

主动语义目标导航的映射学习

本文提出了一种通过主动学习生成语义地图的框架，在未知环境下实现目标物体导航，通过在未观察区域内的语义类别的不确定性进行决策，实现了对场景中语义优先级的学习，并在 Matterport3D 数据库上验证了改进的导航效果。

Jun, 2021

基于无监督学习的目标领域非赏值驱动探索

本研究提出使用深度表示学习算法学习目标空间的方法，通过此方法可以发现探索算法，与工程化表示法相比性能表现相匹配。

Mar, 2018

通过互动学习物体的几何表示

从不受限制的各种观测中提取代理和外部物体在物理空间中的位置的表示学习框架，仅依靠代理执行的动作作为唯一的监督信号，并假设物体通过未知动力学被代理移动，能够确保从中推断出等度量表示，并正确提取它们的位置。

Sep, 2023

基于广义占据模型的可转移强化学习

智能代理应该是综合性的，能够快速适应和推广不同的任务，提出了一种新的模型类别 - 广义占据模型（GOM），它在保留模型强化学习的综合性的同时避免累积误差，通过直接建模长期结果，GOM 既避免了累积误差，又在任意奖励函数下保持了综合性。

Mar, 2024

可转移的图探索学习

该研究考虑了人工智能中尚未开发过的环境在探索方面的问题，并提出了一种从环境分布中学习策略的方法，将其作为强化学习任务来处理，以期能够在最短的步数内访问尽可能多的独特状态。实验结果表明，该方法在空间地图探索和领域特定程序和现实世界移动应用的覆盖率导向软件测试方面表现出色。

Oct, 2019

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

GOMAA-Geo：目标模态不可知主动地理定位

我们提出了 GOMAA-Geo，一个目标模态不可知的主动地理定位代理，通过跨模态对比学习和监督基础模型预训练以及强化学习相结合的方式，实现高效的导航和定位策略，在广泛评估中表现出超越可学习方法并在不同数据集和目标模态上进行泛化的能力。

Jun, 2024