基于深度拉普拉斯选项的时间扩展探索

Jan, 2023

基于深度拉普拉斯选项的时间扩展探索

Deep Laplacian-based Options for Temporally-Extended Exploration

Martin Klissarov, Marlos C. Machado

TL;DR本文提出一种基于图拉普拉斯算子的在线深度强化学习算法，用于生成探索选项，通过在基于像素的任务中的比较，证明了该算法的有效性、通用性和非静态环境下的优越性。

Abstract

Selecting exploratory actions that generate a rich stream of experience for better learning is a fundamental challenge in reinforcement learning (RL). An approach to tackle this problem consists in selecting actions according to specific policies for an extended period of time, also kn

reinforcement learning options-based exploration graph laplacian deep rl algorithm pixel-based tasks

发现论文，激发创造

基于深度后继表示的特征值选项发现

本研究论文以最近提出的使用表征学习方法指导 option 发现过程的想法为重点，扩展了现有算法以适应具有随机转换且不存在人工特征的环境，并提出了一种算法，用于从原始图像中学习非线性状态表示，从而发现 eigenoptions，从传统表格模型和 Atari 2600 游戏中的实验结果表明，该算法具有潜力。

Oct, 2017

强化学习中的选项发现拉普拉斯框架

本文介绍了如何通过引入特征奇异目的 (intrinsic reward functions) 从学习过后的 PVFs 中隐式定义选项来解决选项发现问题，从而在强化学习中同时解决了表示学习和选项发现两大难题。

Mar, 2017

适当的拉普拉斯表达式学习

我们介绍了一种用于近似拉普拉斯表示的理论上可靠的目标及相应的优化算法，通过消除先前逼近的超参数依赖性，我们能够自然地恢复真实特征向量和特征值。我们提供了我们方法的理论保证，并展示这些结果在多个环境中的鲁棒学习表现。

Oct, 2023

强化学习中的拉普拉斯算子：用高效近似学习表示

本文提出了一种全面通用且可扩展的方法，用于在模型自由强化学习 (model-free RL) 的情境下逼近图拉普拉斯算子的特征向量，结果表明我们的技术能够显著提高 RL 代理的性能，适用于目标实现 RL 任务等应用。

Oct, 2018

利用广义图绘制实现更好的拉普拉斯表示在强化学习中

该研究探讨了利用 Laplacian 矩阵对状态进行编码的问题，本文提出了一种新的学习方法，可以为大规模状态空间的强化学习任务提供高质量的 Laplacian 表示，从而产生更好的奖励塑形和探索性选择。

Jul, 2021

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

基于 Kronecker 图的可扩展多代理技能发现

通过直接计算多智能体任务的 Laplacian 谱，我们提出一种基于 Kronecker 图的多智能体选项发现方法，通过估计 Fiedler 向量来改善联合状态空间的连通性，并通过深度学习扩展方法来处理无限规模状态空间。在 Mujoco 等模拟器上的多智能体任务评估中，我们的方法成功地识别了多智能体选项，并显著优于现有技术。

Jul, 2023

使用因子图为基础的表格强化学习中学习多智能体选项

本文提出了一种基于 Kronecker 图的多智能体协同探索的选项发现方法，通过鼓励智能体连接相应的最小或最大 Fiedler 向量，构建多智能体共同目标状态，从而在多智能体任务中实现更快的探索和更高的累积奖励。

Jan, 2022

多任务选项学习与发现在随机路径规划中的应用

应用强化学习模式下，通过数据驱动方法生成抽象状态，计算有效的选项和高级实现路径，从而获得可执行和可解决性的强大保证。

Sep, 2022

通过元学习子目标发现选项

使用元梯度法发现多任务强化学习环境中有用的选项的新方法，该方法使用一个管理器将发现的任务选项和基本操作结合在一起，并通过神经网络优化子目标的奖励和终止函数，实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项，并且帮助初学者的学习速度更快。

Feb, 2021