本文提出了一种悲观的价值迭代算法(PEVI),它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题,并在泛化情况下对其次优性建立了数据相关的上限。
Dec, 2020
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法,我们分别设计了离线和在线设置的 IRL 算法,并建立了样本复杂度的下界,表明 RLP 和 RLE 算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。
Nov, 2023
逆强化学习(IRL)的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念,捕捉了离线设置的机会和限制,并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架,我们提出了两种计算和统计高效的算法,IRLO 和 PIRLO,用于解决这个问题。
Feb, 2024
本文研究了离线强化学习的一个悲观策略 Q-learning,针对有限时间的马尔科夫决策过程,通过单一策略密度函数的集中性假设,对其样本复杂度进行了表征,并提出了一种方差减小的悲观 Q-learning 算法来达到接近最优的样本复杂度。研究结果表明,在离线强化学习中,结合悲观策略和方差减小的模型无关型算法能够提高效率。
Feb, 2022
本文研究了离线强化学习问题,特别是针对有限时间视野 MDPs 的离线强化学习问题的采样效率问题,提出了自适应悲观值迭代算法,并推导了其次优性上界,推广到了无任何假设的情况下,并得到了无假设的本质学习下界,揭示了离线强化学习固有的根本限制。
Oct, 2021
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法 LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
本文提出了一种基于状态感知的近端悲观算法(SA-PP),通过利用学习策略与离线数据集之间的折扣静态状态分布比率,在状态级别上调节行为正则化的程度,以实现更合适的悲观学习,为此还提出了一种名为状态感知保守 Q-Learning(SA-CQL)的新算法,实验结果表明在标准离线学习基准测试中 SA-CQL 取得了最高平均收益。
Nov, 2022
利用线性模型表示形式研究离线强化学习的统计学限制,提出方差感知悲观值迭代算法,重新权重贝尔曼残差以提高离线学习界限。
Mar, 2022
研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法,并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题,提出了代理变量悲观策略优化(P3O)算法。
May, 2022
研究表明,线下强化学习算法具有一定的鲁棒性,即使使用错误的奖励标签经过训练,也能产生表现良好和安全的策略。该现象归功于线下 RL 算法中的悲观主义和常见数据收集实践中的某种偏见之间的相互作用,该特性在解释现有离线 RL 基准结果和创建未来基准时应该被考虑。
Jun, 2023