分布鲁棒离线强化学习的上下界
本研究提出了一个新的算法框架用于分布鲁棒离线强化学习,该算法结合了一种灵活的模型估计子程序和双倍悲观的策略优化步骤,其关键在于通过特定的模型估计子程序,提高离线数据集对鲁棒策略的覆盖度,从而有效克服分布偏移问题,并在多种函数逼近近似方法中得到了良好地应用。
May, 2023
本文利用不确定性集来直接建模转移内核的不确定性,并采用分布稳健优化方法, 通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。
May, 2023
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习,而是依赖于不确定性集合的大小和形状。
May, 2023
提出了一种基于高斯过程和最大方差缩减算法的模型基础方法,用于学习多输出名义转移动力学,克服了强化学习中的若干挑战,并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。
Sep, 2023
鉴于训练和部署之间环境变化的需求,我们对分布稳健强化学习(DRRL)的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程(DRMDPs)为核心的综合建模框架,我们严谨地构建了适用于决策者和对手的各种建模属性。此外,我们还研究了对手引起的偏移的灵活性,并检验了动态规划原理的存在条件。从算法的角度来看,动态规划原理的存在具有重要意义,因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。
Nov, 2023
在马尔可夫决策过程的顺序忽略性下,具有两重鲁棒性的方法在离线策略评估中具有良好的性能,通过引入一种截断两重鲁棒估计器,该方法能够在不满足强分布重叠假设的情况下实现准确的离线策略评估。
Feb, 2024
我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习,通过在线分布鲁棒的马尔可夫决策过程来解决此问题,我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的$d$-长方形不确定性集合,通过去除额外的非线性性和绕过误差传播来解决DRMDPs的非线性问题,并引入了DR-LSVI-UCB算法,这是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线DRMDP算法,并建立了一个与状态和动作空间大小无关的多项式次优性界限。我们的工作是对在线DRMDPs与线性函数逼近的可验证高效性的深入理解的第一步。最后,我们通过不同的数值实验验证了DR-LSVI-UCB的性能和鲁棒性。
Feb, 2024
分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法,当面对大规模状态-动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法,通过对线性参数化的模型进行实现,探索了实例依赖次优性分析在鲁棒离线强化学习中的应用,并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。
Mar, 2024
通过使用离线数据,基于分布健壮的线性马尔科夫决策过程,开发了一种悲观的模型算法,提供了一个具有样本效率的鲁棒性学习策略,以解决离线强化学习中模拟和实际环境之间的差异所带来的问题。
Mar, 2024
通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。
Apr, 2024