双重非齐次强化学习
探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题,其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent,并且在解决一些系统问题时进行了验证。
Jan, 2022
本研究提供一种在非平稳环境下最优决策的强化学习方法,包括改进的变点检测算法和最大化长期折扣奖励的强化学习算法,并在非平稳的随机马尔可夫决策过程、传感器能源管理和交通信号控制等问题中验证了其有效性。
May, 2019
本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能。
Jun, 2023
在非稳态环境下,我们提出了一种新的离线强化学习算法,该算法使用潜在变量模型,将当前和过去的经验学习环境的表示,并在此表示下执行离线强化学习,实验结果表明这种方法显著优于不考虑环境变化的方法。
Jun, 2020
我们提出了两个算法:FedSVRPG-M 和 FedHAPG-M,通过利用动量机制,不论环境异质性的大小,两个算法都可以精确收敛到平均性能函数的一个稳定点,进一步结合方差降低技术或海森矩阵近似,两个算法均达到了最新的收敛结果,其采样复杂度为 O (epsilon^(-3/2)/N),同时我们的算法线性加速了收敛速度,并突显了在找到共同策略中代理之间合作的好处。
May, 2024
本文综述了针对动态环境模型的强化学习方法,目的是在学习过程中最小化奖励损失或找到适当的策略以实现在不断变化的操作条件下智能体的适应,并讨论了这些方法的优缺点以及未来的改进方向。
May, 2020
本文介绍一种新的基于模型的强化学习算法,名为 trajectory-wise multiple choice learning,该算法通过学习多头动力学模型来实现动力学泛化,具有优异的零样本泛化性能。
Oct, 2020
本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略,可以在非稳态的环境下进行端到端无模型学习,并与其他基线方法相比表现出竞争力。
May, 2019