带模型不确定性的在线强化学习
论文研究了缺失真实环境信息的强化学习问题,将鲁棒MDP框架扩展到无模型参数条件下的RL设置中,提出了三个具有鲁棒性的Q-learning、SARSA和TD-learning算法,并通过函数逼近扩展到大规模MDPs,证明了其收敛性,并给出了保证局部最小的随机梯度下降算法。
Jun, 2017
该论文提出一种名为RFQI的稳健强化学习算法,使用离线数据集来优化策略,在标准条件下该算法能够学习到近乎最优的稳健策略,并且在标准基准测试问题上展现出卓越的性能表现。
Aug, 2022
本文提出了一种分布式抗干扰强化学习算法,即Robust Phased Value Learning算法,该算法针对四种不同的差距度量指标的不确定性集合进行求解,得到的结果在样本复杂度方面比现有结果具有更好的一致性。
Mar, 2023
介绍了一种新的不确定性集合并基于此提出了一种名为ARQ-Learning的鲁棒强化学习方法,同时还提出一种能高效解决ARQ-Learning在大规模或连续状态空间下的问题的技术,最终将其应用于各种存在模型不确定性的强化学习应用中。
May, 2023
我们提出了两种新的不确定性集合形式,一种基于双重采样,另一种基于积分概率度量,以应对训练模拟器和测试环境之间的模型不匹配问题,并通过引入函数近似的鲁棒自然行为者-评论者(RNAC)方法,为所提出的RNAC算法在有限时间内收敛到最优鲁棒策略提供了保证,并在多个MuJoCo环境和实际TurtleBot导航任务中展示了所学习策略的鲁棒性能。
Jul, 2023
分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法,当面对大规模状态-动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法,通过对线性参数化的模型进行实现,探索了实例依赖次优性分析在鲁棒离线强化学习中的应用,并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。
Mar, 2024
鲁棒的φ-正则化马尔可夫决策过程(RRMDP)框架的关键贡献是提出了无模型算法,通过历史数据和在线采样来学习最优的鲁棒政策,并在高维系统中进行了理论保证。
May, 2024
通过引入新的时间约束鲁棒马尔科夫决策过程(TC-RMDP)表达方式,考虑到多因素、相关性和时变干扰,该研究重新审视了鲁棒强化学习中的传统假设,为发展更实际、更真实的强化学习应用开辟了新的路径,同时在时间受限环境下,在保持鲁棒性的同时,取得了性能和鲁棒性之间的高效平衡。
Jun, 2024