关键词hybrid reinforcement learning
搜索结果 - 6
- ICML离线观察的混合增强学习
我们考虑了混合强化学习的情境,在该情境下,智能体可以同时访问离线数据和在线交互式访问。虽然强化学习研究通常假设离线数据包含完整的动作、奖励和转换信息,但仅包含状态信息的数据集(也称为仅观测数据集)更为通用、丰富和实际。这激发了我们对具有仅观 - 混合变量问题的混合强化学习框架
通过结合强化学习和贝叶斯优化技术,我们提出了一个混合强化学习框架,以解决由离散和连续变量构成的优化问题。我们的方法在合成函数和实际机器学习超参数调优任务中均超越了传统强化学习、随机搜索和独立的贝叶斯优化方法,在有效性和效率方面表现出色。
- 有限覆盖混合强化学习的在线算法的自然推广
混合强化学习利用在线和离线数据,研究其可证明的好处仍然很少,通过将状态 - 动作空间分区和在线算法温启动离线数据,我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征,从而在探索方面取得可证明的增益。
- ICLR混合强化学习:利用离线和在线数据都可使强化学习更加高效
本文介绍一种混合强化学习算法 Hy-Q,利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。
- 基于图形的可解释强化学习的两步混合策略学习
本文提出了一种基于图形输入的两步式 RL 策略,透过实用化分类问题将决策过程分解为两个步骤并采用规则挖掘器进行推理,能够生成可解释和鲁棒的分层策略并在复杂文本游戏领域呈现出更好的泛化和稳健性。
- 机器人混合控制的连续 - 离散强化学习
采用混合强化学习方法来同时优化离散和连续动作,以解决带有混合决策变量的控制问题,并探索使用元动作来重新定义问题。