该研究探讨了利用 Laplacian 矩阵对状态进行编码的问题,本文提出了一种新的学习方法, 可以为大规模状态空间的强化学习任务提供高质量的 Laplacian 表示,从而产生更好的奖励塑形和探索性选择。
Jul, 2021
本文提出了一种全面通用且可扩展的方法,用于在模型自由强化学习 (model-free RL) 的情境下逼近图拉普拉斯算子的特征向量,结果表明我们的技术能够显著提高 RL 代理的性能,适用于目标实现 RL 任务等应用。
Oct, 2018
该研究论文介绍了一种基于 Laplacian Representation 并能够有效解决 inter-state reachability 问题的任务无关状态表示方法 RA-LapRep, 该方法能够显著提高 reward shaping 的性能以及帮助发现 bottleneck 状态。
Oct, 2022
本文提出一种基于图拉普拉斯算子的在线深度强化学习算法,用于生成探索选项,通过在基于像素的任务中的比较,证明了该算法的有效性、通用性和非静态环境下的优越性。
Jan, 2023
本文研究强化学习中函数逼近不稳定的问题,提出了一种基于状态表示学习的解决方案,分析 transition matrix、proto-value functions、krylov subspace 等方案的适用范围与稳定性,并通过实验验证了可以使用随机梯度下降学习这种可靠的状态表示,从而提高深度网络对强化学习的表示学习技巧。
Jul, 2020
通过先前的经验来学习有效的隐藏表示,以指示探索的区域,这对高维空间中的探索尤其有益。
May, 2019
本文介绍了如何通过引入特征奇异目的 (intrinsic reward functions) 从学习过后的 PVFs 中隐式定义选项来解决选项发现问题,从而在强化学习中同时解决了表示学习和选项发现两大难题。
Mar, 2017
本文提出一种局部约束表示法,通过对环境观测状态的预测及邻近状态的表示作为辅助损失,将强化学习中的表示与任务相分离,可以提高泛化能力,有效应用于连续控制任务中。
Sep, 2022
本研究探讨了强化学习中状态表示的泛化行为及具体的有效维度边界,并通过文献调研及案例分析验证了所提出的有效维度理论。
Mar, 2022
本研究论文以最近提出的使用表征学习方法指导 option 发现过程的想法为重点,扩展了现有算法以适应具有随机转换且不存在人工特征的环境,并提出了一种算法,用于从原始图像中学习非线性状态表示,从而发现 eigenoptions,从传统表格模型和 Atari 2600 游戏中的实验结果表明,该算法具有潜力。
Oct, 2017