深度可供性预见：通过未来可实现的行动计划

Nov, 2020

深度可供性预见：通过未来可实现的行动计划

Deep Affordance Foresight: Planning Through What Can Be Done in the Future

Danfei Xu, Ajay Mandlekar, Roberto Martín-Martín, Yuke Zhu, Silvio Savarese...

TL;DR本文提出了一种新的 affordance 表示，使机器人可以通过建模未来的 affordance 来推断长期效应，从而确定实现任务目标的最佳动作。通过该新表示，我们开发了一种 learning-to-plan 方法，Deep Affordance Foresight（DAF），通过试错学习参数化 motor skills 的 affordance 的环境模型，我们在两个挑战性的操作领域上评估了 DAF，并展示了它可以有效地学习执行多步任务，在不同的任务之间共享学习到的 affordance 表示，并学习用高维图像输入进行规划。

Abstract

Planning in realistic environments requires searching in large planning spaces. affordances are a powerful concept to simplify this search, because they model what actions can be successful in a given situation. However, the classical notion of affordance is not suitable for long horiz

affordances long-term planning learning-to-plan manipulation domains deep affordance foresight

发现论文，激发创造

基于强化学习的深度机器人可供性学习的最新进展

本文综述了近期深度机器人可支配学习 (DRAL) 的研究进展，该方法致力于开发数据驱动的方法，使用可支配性概念辅助机器人任务，对机器人任务的技术细节和局限性进行了分类和讨论，并从观察、行为、可支配性表达、数据收集和实际部署等方面总结了它们的挑战和未来方向。同时提出了一个有前途的未来方向，即将强化学习与可支配性定义相结合，以预测任意行为后果。

Mar, 2023

识别预测未来中的能 affordance 并考虑非规范 affordance 影响进行规划

提出了一种基于 affordance 识别和神经前向模型预测 affordance 执行效果的行动序列规划系统，可以避免对多步骤计划的明确 affordance 效果定义的依赖。通过对预测未来的 affordance 识别，系统可以从经验数据中学习 affordance 效果，并且可以预见特定情况的副作用，避免了由于非规范效果引起的计划失败。并且可以利用非规范效果实现特定目标。在仿真系统上测试了该系统，在需要考虑规范和非规范 affordance 效果的一组测试任务上进行评估。

Jun, 2022

强化学习中的可行性原理理论

本文提出了一种基于 Markov Decision Processes 的行动效益理论，它能够加速计划过程，同时提高学习效率和准确性，特别是在需要函数逼近的模型中。文中还介绍了一种学习行动效益的方法，并将其用于估计更简单且泛化能力更强的状态转移模型。

Jun, 2020

为机器人代理建立适用关系 - 一项综述

本文回顾了在机器人任务中使用借助能力概念的不同策略，并构建这些方法以提供指导，包括能力作为提高自主性的机制。最后，我们确定并讨论了一系列有趣的借助能力研究方向，这些方向有潜力提高 AI 代理的能力。

May, 2021

通过想象视觉可供性学习新技能：我在这里能做什么？

本文旨在研究如何通过生成模型来让一个通用机器人学习视觉契合性的表征，以便于机器人可以在新环境中使用它的模型进行采样，进而进一步训练其策略从而达成其目标。这种做法可以被用于训练以原始图像输入为操作对象的目标编码策略，并可以通过我们提出的契合性导向探索机制快速地学习如何操作新对象。我们展示，通过五分钟的在线学习就可以在新场景下使用之前的数据训练机器人完成抽屉打开，抓取和放置的任务。

Jun, 2021

指导机器人探索的视觉可供性预测

通过学习视觉契合来指导机器人探索，并使用基于 Transformer 的模型来学习 VQ-VAE 潜在嵌入空间中条件分布，从而展现模型的组合泛化能力。训练完成的契合模型可用于机器人操作策略学习中的目标抽样分布。

May, 2023

末端到端的视觉运动控制的可供性学习

采用模块化神经网络体系结构，利用合成数据和模拟技术，通过低维潜在表示生成场景可用性，成功训练机械臂政策。同时，提出了一种数据集生成方法，可轻松推广到新任务、对象和环境，无需手动像素标记。

Mar, 2019

机器人场景中的上下文能力与安全探索

利用环境适应性的概念实现安全探索和学习，进而改善家庭机器人的成功率和收敛速度，并为未来的人机交互探索奠定基础。

May, 2024

GrASP: 基于梯度的可供性选择规划

本篇论文主要探讨在大规模强化学习领域中，如何解决在使用树搜索规划时处理连续动作空间的问题，并通过学习选取能够有助于规划的可接受行为（Affordances），并以基于梯度下降的方法更新其参数，从而实现同时学习选取单元行为和规划带有学习后价值等价模型的方法优于无模型强化学习的目的。

Feb, 2022

学习正确的行为：从图像预测和解释可供性

本文提出使用图神经网络对场景中的操作、物体可用性进行详细的推理，并解决了在特定环境下不应该采取某些行动以及采取这些行动后可能发生的情况的问题。

Dec, 2017