关键词value-based reinforcement learning
搜索结果 - 11
- 迭代 Q 网络:超越一步 Bellman 算子
值基于强化学习的研究论文,介绍了一种新方法 (iterated Q-Networks),通过多次迭代 Bellman 算子来学习一系列 Q 函数逼近,理论上可行,并可无缝地应用于基于价值和演员 - 评论家方法。在 Atari 2600 游戏 - 强化学习中干扰的测量和缓解
本文研究了在价值为基础的强化学习方法中广泛存在的灾难性干扰现象,提供了一种新的干扰度量方法,在多种网络架构下系统评估了这种度量与控制性能不稳定性的相关性,并提出了一类名为 “在线感知” 的算法来减少干扰,并表明它们在多个经典的控制环境中可以 - 政策搅动现象
该研究探讨了政策波动现象在基于价值的强化学习中的出现,并证实了它是深度学习相关的形式探索中一种有益但被忽视的表现。研究还进一步阐述了 epsilon - 贪心探索在该决策探究中扮演的较小角色。
- AAAI升值路径:走向更好的强化学习表征
通过对价值改善路径的整体近似,以增强价值函数逼近能力,提出了一种新的价值导向强化学习算法。通过在 Atari 2600 游戏中测试,该算法的性能得到了显著提高。
- CAQL: 连续动作 Q 学习
本研究基于价值强化学习中的连续动作 Q-learning,提出了一个 CAQL 算法,利用混合整数规划来实现最大化问题优化,该方法相对于近似方法具有更好地鲁棒性和推广性,同时在研究中表现优于基于策略的方法。
- 能否通过 Graph Networks 的 Q-Learning 学习适用于 SAT Solver 的可推广分支启发式策略?
本文介绍了使用图神经网络进行函数逼近的增强学习的 Graph-Q-SAT 分支启发式算法,该算法可用于解决 SAT 问题,并且在使用 MiniSat 求解器进行交互时可以减少解决 SAT 问题所需的迭代次数 2-3 倍。
- ICMLActor-Critic 方法中的函数逼近误差处理
该研究提出了一种基于 Double Q-learning 的算法来处理深度 Q-learning 和 actor-critic 算法中出现的过高估计的问题,在 OpenAI Gym 的测试中,该算法表现出优异的性能。
- 分类分布式强化学习的分析
本文为分布式 RL 算法提出了一个分析 CDRL 算法的框架,证明了投影分布 Bellman 计算器在 distributional RL 中的重要性,从根本上联系 CDRL 和 Cramér 距离,并为基于样本的分类分布式 RL 算法提供 - NIPSBellman 残差是否为不良代理?
该研究旨在理论上和实证上比较强化学习的两个标准最优化标准,并提出了一种最小化 Bellman 残差的新方法来代替通常的最大化平均值的方法,实验表明直接最大化平均值比 Bellman 残差更好,这表明值基强化学习中通常使用的 Bellman - NIPS跨多个数量级学习价值
本文主要研究如何通过自适应标准化目标值来解决学习算法对函数尺度缩放的不变性问题,尤其是在价值反馈学习和 Atari 游戏中,该方法能够消除领域特定的启发式方法,提高整体表现。
- 通过策略搜索学习合作
本文提出了一种基于梯度的分布式策略搜索方法,用于合作博弈中的部分可观测环境,比较了本地最优和纳什均衡的概念,实验结果表明该方法的有效性。