分布鲁棒离线强化学习的极小极大最优和计算高效算法
本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法,该方法使用历史数据学习分布式鲁棒的策略,包括线性函数逼近的情况,提出了两种算法,得出了第一个样例复杂度的非渐近性结果,并展示了其在实验上的优越性。
Sep, 2022
本文提出了一种基于悲观主义的离线线性 MDP 算法,核心是使用参考函数进行不确定性分解并利用理论分析证明,该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈,验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体 MDPs 和 MGs 的第一个有效的极小极大最优算法。
May, 2022
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现,即使有到所有策略的真实价值函数都线性映射到一组给定的特征,并且有关于策略的所有特征的良好聚集离线数据(在强谱条件下),任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。
Oct, 2020
使用不同 iable 函数类逼近的离线强化学习方法在实践中得到了广泛应用,它结合了各种具有非线性和非凸结构的模型,能够显著提高算法性能;本文分析了一种最悲观的算法,并证明这种方法的有效性,为探究强化学习与不同 iable 函数逼近方法提供了新的理论基础。
Oct, 2022
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023
我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习,通过在线分布鲁棒的马尔可夫决策过程来解决此问题,我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的 $d$- 长方形不确定性集合,通过去除额外的非线性性和绕过误差传播来解决 DRMDPs 的非线性问题,并引入了 DR-LSVI-UCB 算法,这是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线 DRMDP 算法,并建立了一个与状态和动作空间大小无关的多项式次优性界限。我们的工作是对在线 DRMDPs 与线性函数逼近的可验证高效性的深入理解的第一步。最后,我们通过不同的数值实验验证了 DR-LSVI-UCB 的性能和鲁棒性。
Feb, 2024
本文利用不确定性集来直接建模转移内核的不确定性,并采用分布稳健优化方法,通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。
May, 2023
本文基于边缘化重要性取样 (RL) 提出了一种新的离线强化学习算法,以实现一般函数逼近和单策略可集中性的统计最优性,无需不确定性量化,并且通过应用增广 Lagrange 方法,保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同,本文方法证明消除了这种需求,并将规则化器重新解释为 “占用有效性的执行者”,而不是 “保守性的促进者”。
Nov, 2022
本研究提出了一种基于 Bootstrapped and Constrained Pessimistic Value Iteration 算法的离线强化学习方法,该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下,该算法提供了一个快速率,即使在自适应采集的离线数据中,也能够实现绝对零的次优误差和 O(1 / K)的较低界限。
Nov, 2022