这篇论文研究了具有低秩转移矩阵的 MDPs,尤其是密度特征的样本高效学习,提出了一种算法来处理非勘探性数据的离线场景和逐层构建勘探数据分布的在线算法。
Feb, 2023
这篇论文研究了离线强化学习中带有判决论但非估计稀疏性的线性函数逼近。
Jan, 2024
该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法,该算法在折扣无限时间段设置中具有较低的样本复杂度,且支持离线约束强化学习设置。
Feb, 2024
我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法,并建立了新的离线评估引理和 LMDPs 的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题,特别是部分观测环境中,具有重要价值。
Jun, 2024
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择:只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性,就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限,并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。
Jan, 2023
本文研究了如何在低秩马尔可夫决策过程中进行紧凑的低维表示的表示学习,并致力于改进样本复杂度,并提出 REP-UCB 算法。
Oct, 2021
基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度,同时实现了类似的累积奖励。
May, 2024
研究离线强化学习中的难点问题,利用最大似然估计从离线数据中估计隐式奖励,并在 MLE 的置信区间内解决分布鲁棒规划问题,引入了新的单一策略浓缩系数测量。
May, 2023
研究低秩结构引发的强化学习中的矩阵估计问题,通过简单的基于谱的方法高效地恢复矩阵的奇异子空间并实现最小的逐项误差,从而设计了充分利用低秩结构的强化学习算法,包括低秩赌博机问题的最小遗憾算法和低秩马尔可夫决策过程中的无奖励 RL 的最佳策略识别算法,两种算法均具有最先进的性能保证。
Oct, 2023
我们研究了大规模无穷时间折扣马尔可夫决策过程中离线强化学习的问题,当奖励和转移模型在已知特征映射下可线性实现。我们提出了一种新的算法,通过在特征占据空间中进行一种梯度上升的形式来解决这个问题。我们证明了该算法在文献中已知的最不严格的数据覆盖假设下具有强大的计算和样本复杂度保证。此外,我们的方法易于实现,并且不需要关于覆盖比例(甚至上界)的先验知识,这使其成为迄今为止已知的最优算法。