适当的拉普拉斯表达式学习

Oct, 2023

Proper Laplacian Representation Learning

Diego Gomez, Michael Bowling, Marlos C. Machado

TL;DR我们介绍了一种用于近似拉普拉斯表示的理论上可靠的目标及相应的优化算法，通过消除先前逼近的超参数依赖性，我们能够自然地恢复真实特征向量和特征值。我们提供了我们方法的理论保证，并展示这些结果在多个环境中的鲁棒学习表现。

Abstract

The ability to learn good representations of states is essential for solving large reinforcement learning problems, where exploration, generalization, and transfer are particularly challenging. The laplacian representat

reinforcement learning laplacian representation eigensystem optimization algorithm robust learning

发现论文，激发创造

利用广义图绘制实现更好的拉普拉斯表示在强化学习中

该研究探讨了利用 Laplacian 矩阵对状态进行编码的问题，本文提出了一种新的学习方法，可以为大规模状态空间的强化学习任务提供高质量的 Laplacian 表示，从而产生更好的奖励塑形和探索性选择。

Jul, 2021

强化学习中的拉普拉斯算子：用高效近似学习表示

本文提出了一种全面通用且可扩展的方法，用于在模型自由强化学习 (model-free RL) 的情境下逼近图拉普拉斯算子的特征向量，结果表明我们的技术能够显著提高 RL 代理的性能，适用于目标实现 RL 任务等应用。

Oct, 2018

强化学习中考虑可达性的拉普拉斯表示

该研究论文介绍了一种基于 Laplacian Representation 并能够有效解决 inter-state reachability 问题的任务无关状态表示方法 RA-LapRep, 该方法能够显著提高 reward shaping 的性能以及帮助发现 bottleneck 状态。

Oct, 2022

基于深度拉普拉斯选项的时间扩展探索

本文提出一种基于图拉普拉斯算子的在线深度强化学习算法，用于生成探索选项，通过在基于像素的任务中的比较，证明了该算法的有效性、通用性和非静态环境下的优越性。

Jan, 2023

稳定离线强化学习的表示方法

本文研究强化学习中函数逼近不稳定的问题，提出了一种基于状态表示学习的解决方案，分析 transition matrix、proto-value functions、krylov subspace 等方案的适用范围与稳定性，并通过实验验证了可以使用随机梯度下降学习这种可靠的状态表示，从而提高深度网络对强化学习的表示学习技巧。

Jul, 2020

学习潜在状态表示以加速探索

通过先前的经验来学习有效的隐藏表示，以指示探索的区域，这对高维空间中的探索尤其有益。

May, 2019

强化学习中的选项发现拉普拉斯框架

本文介绍了如何通过引入特征奇异目的 (intrinsic reward functions) 从学习过后的 PVFs 中隐式定义选项来解决选项发现问题，从而在强化学习中同时解决了表示学习和选项发现两大难题。

Mar, 2017

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022

强化学习中表示的泛化

本研究探讨了强化学习中状态表示的泛化行为及具体的有效维度边界，并通过文献调研及案例分析验证了所提出的有效维度理论。

Mar, 2022

基于深度后继表示的特征值选项发现

本研究论文以最近提出的使用表征学习方法指导 option 发现过程的想法为重点，扩展了现有算法以适应具有随机转换且不存在人工特征的环境，并提出了一种算法，用于从原始图像中学习非线性状态表示，从而发现 eigenoptions，从传统表格模型和 Atari 2600 游戏中的实验结果表明，该算法具有潜力。

Oct, 2017