本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现,即使有到所有策略的真实价值函数都线性映射到一组给定的特征,并且有关于策略的所有特征的良好聚集离线数据(在强谱条件下),任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。
Oct, 2020
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
本文提出了一种离线策略评估算法,该算法利用了隐含的低秩结构来估计未被覆盖的状态 - 动作对的值,同时提供了一个离线策略优化算法,且具有非渐近性能保证。
May, 2023
在不需要奖励函数的情况下,在批量强化学习和多个奖励函数的领域中,代理人可以收集数据,然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习,并得出一个算法的样本复杂度是多项式时间,与状态和动作的数量无关。
Jun, 2020
分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法,当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法,通过对线性参数化的模型进行实现,探索了实例依赖次优性分析在鲁棒离线强化学习中的应用,并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。
Mar, 2024
通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法,本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点,并为该算法衍生的策略提供性能保证。
Jan, 2024
本文提出了第一个在基于线性动态和线性奖励时,具有多项式运行时间和样本复杂度的可证明的强化学习算法,该算法可以在不需要模拟器或其他假设的情况下实现,具有快速速度且与状态和动作数量无关。
Jul, 2019
研究离线强化学习中的难点问题,利用最大似然估计从离线数据中估计隐式奖励,并在 MLE 的置信区间内解决分布鲁棒规划问题,引入了新的单一策略浓缩系数测量。
本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法,该方法使用历史数据学习分布式鲁棒的策略,包括线性函数逼近的情况,提出了两种算法,得出了第一个样例复杂度的非渐近性结果,并展示了其在实验上的优越性。
Sep, 2022
本文针对强化学习中的大状态空间问题,研究使用函数逼近的强化学习方法,并提出了寻找高效率算法的方案,同时探讨了计算难度与统计问题之间的关系。
Feb, 2022