分布式鲁棒强化学习
本文提出了一种分布式抗干扰强化学习算法,即Robust Phased Value Learning算法,该算法针对四种不同的差距度量指标的不确定性集合进行求解,得到的结果在样本复杂度方面比现有结果具有更好的一致性。
Mar, 2023
介绍了一种新的不确定性集合并基于此提出了一种名为ARQ-Learning的鲁棒强化学习方法,同时还提出一种能高效解决ARQ-Learning在大规模或连续状态空间下的问题的技术,最终将其应用于各种存在模型不确定性的强化学习应用中。
May, 2023
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习,而是依赖于不确定性集合的大小和形状。
May, 2023
本论文提出了两种模型无关的算法,分别是分布鲁棒的Q-learning及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中,这些算法的理论发现和效率得到了证实。
May, 2023
提出了一种基于高斯过程和最大方差缩减算法的模型基础方法,用于学习多输出名义转移动力学,克服了强化学习中的若干挑战,并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。
Sep, 2023
分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法,当面对大规模状态-动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法,通过对线性参数化的模型进行实现,探索了实例依赖次优性分析在鲁棒离线强化学习中的应用,并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。
Mar, 2024
通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。
Apr, 2024
本研究通过基于强对偶性的算法框架,在环境不确定性的一个类别中提出了第一个高效且可证明的解决方法,来解决分布鲁棒受限强化学习(DRC-RL)问题,该问题旨在最大化预期奖励,同时受制于环境分布变化和约束条件。
Jun, 2024
分布式鲁棒强化学习提出了一种模型自由的算法,利用多级蒙特卡洛技术来优化最坏情况性能,解决了以往模型自由的算法在收敛保证和样本复杂度方面的限制,并提供了三种不确定性情况下的有限样本分析,从而实现了分布式鲁棒强化学习的模型自由方法的复杂度最优结果,突出了算法的效果与效率,凸显其在实际应用中的潜力。
Jun, 2024