强化学习中的选项发现拉普拉斯框架
本研究论文以最近提出的使用表征学习方法指导 option 发现过程的想法为重点,扩展了现有算法以适应具有随机转换且不存在人工特征的环境,并提出了一种算法,用于从原始图像中学习非线性状态表示,从而发现 eigenoptions,从传统表格模型和 Atari 2600 游戏中的实验结果表明,该算法具有潜力。
Oct, 2017
本文提出一种基于图拉普拉斯算子的在线深度强化学习算法,用于生成探索选项,通过在基于像素的任务中的比较,证明了该算法的有效性、通用性和非静态环境下的优越性。
Jan, 2023
通过基于值函数空间的几何特性,提出了一种新的表征学习的视角,证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中,展示了敌对价值函数作为辅助任务的有用性和特点。
Jan, 2019
Deep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法,通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。
Oct, 2022
我们介绍了一种用于近似拉普拉斯表示的理论上可靠的目标及相应的优化算法,通过消除先前逼近的超参数依赖性,我们能够自然地恢复真实特征向量和特征值。我们提供了我们方法的理论保证,并展示这些结果在多个环境中的鲁棒学习表现。
Oct, 2023
本文介绍一种新的无监督强化学习方法,旨在通过最大化智能体可靠到达的不同状态的数量来发现可用的本质选项集,并提供隐式和显式的选项表示,提供在特定状态下使用的授权最大化代理所需的显式的授权度量。
Nov, 2016
在强化学习中,Option 在不同时间尺度上进行推理的框架已引起研究界的广泛关注。近年来,无监督学习成为强化学习的研究热点,并在 Option 框架中引入了 “Empowerment”(赋权)这一概念,这是代理人对环境影响力的程度和感知这种影响的能力,可以在没有环境奖励结构的监督下进行优化。许多近期的研究通过多种方式修改这个概念并取得了令人瞩目的结果。本研究通过赋权原则的视角对这些论文进行了比较研究。
Jun, 2022
探讨一种名为 Successor Options 的新方法,该方法使用 Successor Representations 构建状态空间模型,通过学习伪奖励来了解内部操作策略,并且适用于高维空间的机器人控制环境。
May, 2019
本文提出了一种全面通用且可扩展的方法,用于在模型自由强化学习 (model-free RL) 的情境下逼近图拉普拉斯算子的特征向量,结果表明我们的技术能够显著提高 RL 代理的性能,适用于目标实现 RL 任务等应用。
Oct, 2018
目前的论文旨在探索强化学习领域,并在现有方法的基础上构建改进方法,以解决高维度和复杂环境中的学习问题。它通过分层的方式(称为层次强化学习)来分解学习任务,通过构建自主地学习层级结构的代理来提高效果。
Mar, 2024