强化学习中的可行性原理理论

ICMLJun, 2020

What can I do here? A Theory of Affordances in Reinforcement Learning

Khimya Khetarpal, Zafarali Ahmed, Gheorghe Comanici, David Abel, Doina Precup

TL;DR本文提出了一种基于 Markov Decision Processes 的行动效益理论，它能够加速计划过程，同时提高学习效率和准确性，特别是在需要函数逼近的模型中。文中还介绍了一种学习行动效益的方法，并将其用于估计更简单且泛化能力更强的状态转移模型。

Abstract

reinforcement learning algorithms usually assume that all actions are always available to an agent. However, both people and animals understand the general link between the features of their environment and the actions that are feasible. Gibson (1977) coined the term "→

reinforcement learning affordances planning transition models function approximation

发现论文，激发创造

为机器人代理建立适用关系 - 一项综述

本文回顾了在机器人任务中使用借助能力概念的不同策略，并构建这些方法以提供指导，包括能力作为提高自主性的机制。最后，我们确定并讨论了一系列有趣的借助能力研究方向，这些方向有潜力提高 AI 代理的能力。

May, 2021

基于强化学习的深度机器人可供性学习的最新进展

本文综述了近期深度机器人可支配学习 (DRAL) 的研究进展，该方法致力于开发数据驱动的方法，使用可支配性概念辅助机器人任务，对机器人任务的技术细节和局限性进行了分类和讨论，并从观察、行为、可支配性表达、数据收集和实际部署等方面总结了它们的挑战和未来方向。同时提出了一个有前途的未来方向，即将强化学习与可支配性定义相结合，以预测任意行为后果。

Mar, 2023

深度可供性预见：通过未来可实现的行动计划

本文提出了一种新的 affordance 表示，使机器人可以通过建模未来的 affordance 来推断长期效应，从而确定实现任务目标的最佳动作。通过该新表示，我们开发了一种 learning-to-plan 方法，Deep Affordance Foresight（DAF），通过试错学习参数化 motor skills 的 affordance 的环境模型，我们在两个挑战性的操作领域上评估了 DAF，并展示了它可以有效地学习执行多步任务，在不同的任务之间共享学习到的 affordance 表示，并学习用高维图像输入进行规划。

Nov, 2020

功能融合网络

我们提出了一个模型，将对象、动作和效果统一为单一的潜在表示，在共享的感知空间中建立了被称为行动潜力空间的各种行为潜能。使用这个行动潜力空间，我们的系统能够在给定动作和对象时生成效果轨迹，并且能够在给定效果轨迹和对象时生成动作轨迹。

Apr, 2024

GrASP: 基于梯度的可供性选择规划

本篇论文主要探讨在大规模强化学习领域中，如何解决在使用树搜索规划时处理连续动作空间的问题，并通过学习选取能够有助于规划的可接受行为（Affordances），并以基于梯度下降的方法更新其参数，从而实现同时学习选取单元行为和规划带有学习后价值等价模型的方法优于无模型强化学习的目的。

Feb, 2022

可能性优先于效用：学习和使用分级的可用性

本文介绍了一种基于 Hierarchical Affordance Learning 的方法，通过学习层次性可提供性模型来修剪不可能的子任务以实现更有效的学习，相对于非可提供性感知方法，HAL 代理能更好地学习复杂任务，规避环境中的随机性，获得多种技能，并且不需要外部监督。

Mar, 2022

使用内在动机进行层次感知发现

本文提出了一种使用内在动机来指导移动机器人利用环境中可行的任务来自主学习并适应互相关联的任务的方法。

Sep, 2020

利用词向量提取岩石的可利用性

通过对维基百科语料库进行训练，采用词嵌入方法提取条件的能力，减少学习步骤，提高自主智能体的决策类似于人类的选择。

Mar, 2017

学习 3D 环境中互动探索的可承受性景观

本研究利用增强学习方法，通过自主探索实现对未经探测的三维环境的机器人智能互动，其中包括对可利用对象的发现、高效自主行动的学习以及使用基于图像的可利用区域分割模型。实验表明，基于该方法的机器人可以智能地操作新的家居环境，并为进行下游任务，如 “找刀并将其放入抽屉中”，进行了充分的准备。

Aug, 2020

机器人操作的端到端操作能力学习

本研究使用视觉契合技术，通过预测关键点的接触信息，提出了一种端到端的控制策略学习框架，可以实现在不同类型的操纵任务中的泛化。结果显示，我们的算法在成功率上大大优于基线算法，包括基于视觉契合和强化学习方法。

Sep, 2022