强化学习中的选项发现拉普拉斯框架

ICMLMar, 2017

强化学习中的选项发现拉普拉斯框架

A Laplacian Framework for Option Discovery in Reinforcement Learning

PDF

Marlos C. Machado, Marc G. Bellemare, Michael Bowling

TL;DR本文介绍了如何通过引入特征奇异目的 (intrinsic reward functions) 从学习过后的 PVFs 中隐式定义选项来解决选项发现问题，从而在强化学习中同时解决了表示学习和选项发现两大难题。

Abstract

representation learning and option discovery are two of the biggest challenges in reinforcement learning (RL). →

representation learning option discovery proto-value functions eigenpurposes reinforcement learning

发现论文，激发创造

基于深度后继表示的特征值选项发现

本研究论文以最近提出的使用表征学习方法指导 option 发现过程的想法为重点，扩展了现有算法以适应具有随机转换且不存在人工特征的环境，并提出了一种算法，用于从原始图像中学习非线性状态表示，从而发现 eigenoptions，从传统表格模型和 Atari 2600 游戏中的实验结果表明，该算法具有潜力。

Oct, 2017

基于深度拉普拉斯选项的时间扩展探索

本文提出一种基于图拉普拉斯算子的在线深度强化学习算法，用于生成探索选项，通过在基于像素的任务中的比较，证明了该算法的有效性、通用性和非静态环境下的优越性。

Jan, 2023

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019

使用深度 Q-Learning 和变分自编码器进行可解释选项发现

Deep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法，通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。

Oct, 2022

适当的拉普拉斯表达式学习

我们介绍了一种用于近似拉普拉斯表示的理论上可靠的目标及相应的优化算法，通过消除先前逼近的超参数依赖性，我们能够自然地恢复真实特征向量和特征值。我们提供了我们方法的理论保证，并展示这些结果在多个环境中的鲁棒学习表现。

Oct, 2023

变分内在控制

本文介绍一种新的无监督强化学习方法，旨在通过最大化智能体可靠到达的不同状态的数量来发现可用的本质选项集，并提供隐式和显式的选项表示，提供在特定状态下使用的授权最大化代理所需的显式的授权度量。

Nov, 2016

内在动机选项学习：最近方法的比较研究

在强化学习中，Option 在不同时间尺度上进行推理的框架已引起研究界的广泛关注。近年来，无监督学习成为强化学习的研究热点，并在 Option 框架中引入了 “Empowerment”（赋权）这一概念，这是代理人对环境影响力的程度和感知这种影响的能力，可以在没有环境奖励结构的监督下进行优化。许多近期的研究通过多种方式修改这个概念并取得了令人瞩目的结果。本研究通过赋权原则的视角对这些论文进行了比较研究。

Jun, 2022

Successor Options: 基于继承关系的强化学习选项发现框架

探讨一种名为 Successor Options 的新方法，该方法使用 Successor Representations 构建状态空间模型，通过学习伪奖励来了解内部操作策略，并且适用于高维空间的机器人控制环境。

May, 2019

强化学习中的拉普拉斯算子：用高效近似学习表示

本文提出了一种全面通用且可扩展的方法，用于在模型自由强化学习 (model-free RL) 的情境下逼近图拉普拉斯算子的特征向量，结果表明我们的技术能够显著提高 RL 代理的性能，适用于目标实现 RL 任务等应用。

Oct, 2018

选项的强化学习

目前的论文旨在探索强化学习领域，并在现有方法的基础上构建改进方法，以解决高维度和复杂环境中的学习问题。它通过分层的方式（称为层次强化学习）来分解学习任务，通过构建自主地学习层级结构的代理来提高效果。

Mar, 2024