单轨迹鲁棒分布式强化学习
本文提出了一种基于风险规避的探索策略,使用分布式鲁棒策略迭代方案来确保学习过程中的安全,并在连续状态/操作空间中扩展了此方法,得出了分布式鲁棒软演员-批评家算法的实用算法。
Feb, 2019
该论文提出一种名为RFQI的稳健强化学习算法,使用离线数据集来优化策略,在标准条件下该算法能够学习到近乎最优的稳健策略,并且在标准基准测试问题上展现出卓越的性能表现。
Aug, 2022
本文提出了一种分布式抗干扰强化学习算法,即Robust Phased Value Learning算法,该算法针对四种不同的差距度量指标的不确定性集合进行求解,得到的结果在样本复杂度方面比现有结果具有更好的一致性。
Mar, 2023
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023
鉴于训练和部署之间环境变化的需求,我们对分布稳健强化学习(DRRL)的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程(DRMDPs)为核心的综合建模框架,我们严谨地构建了适用于决策者和对手的各种建模属性。此外,我们还研究了对手引起的偏移的灵活性,并检验了动态规划原理的存在条件。从算法的角度来看,动态规划原理的存在具有重要意义,因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。
Nov, 2023
我们提出了一种名为SortRL的新型鲁棒性强化学习方法,通过网络架构的角度改善DRL策略对观测扰动的鲁棒性,并设计了一个训练框架,解决给定任务同时保持对观测的鲁棒性。多个实验表明SortRL在不同扰动强度下实现了最先进的鲁棒性能。
Dec, 2023
通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。
Apr, 2024
本研究通过基于强对偶性的算法框架,在环境不确定性的一个类别中提出了第一个高效且可证明的解决方法,来解决分布鲁棒受限强化学习(DRC-RL)问题,该问题旨在最大化预期奖励,同时受制于环境分布变化和约束条件。
Jun, 2024
分布式鲁棒强化学习提出了一种模型自由的算法,利用多级蒙特卡洛技术来优化最坏情况性能,解决了以往模型自由的算法在收敛保证和样本复杂度方面的限制,并提供了三种不确定性情况下的有限样本分析,从而实现了分布式鲁棒强化学习的模型自由方法的复杂度最优结果,突出了算法的效果与效率,凸显其在实际应用中的潜力。
Jun, 2024