本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
本文介绍了一种基于 Bellman 备份的批量强化学习算法,它采用一种更加保守的更新策略来提高输出策略的性能保证,并通过演示 MDP 示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。
Jul, 2020
本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现,即使有到所有策略的真实价值函数都线性映射到一组给定的特征,并且有关于策略的所有特征的良好聚集离线数据(在强谱条件下),任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。
Oct, 2020
本文阐述了价值分配的重要性,提出了一种基于价值分配的学习算法,并通过实证结果证明了该算法的有效性。
Jul, 2017
从统计学角度出发,本文展示了关于样本高效强化学习的充分条件其实比从传统的近似观点得出的条件更加苛刻。本文的主要研究结果为强化学习方法提供了尖锐的下限,揭示了好的(基于值、基于模型或基于策略)表示本身并不足以实现高效强化学习,除非这种近似的质量通过某些硬性门槛。此外,本研究还暗示了以下因素之间的样本复杂度呈指数倍增长:1)基于值的学习与任何质量的基于值的近似学习;2)基于值的学习与基于策略的学习;3)基于策略的学习和监督学习;4)强化学习和模仿学习。
Oct, 2019
该研究提出了一种 batch reinforcement learning 的学习算法 BVFT,通过一种基于比较和分区的机制使得学习效率更高并且适用于其他问题和扩展。
Aug, 2020
本文涵盖了两种用于近似 Q 星算法在批量强化学习中表现的性能保证,并与传统的迭代方法进行了比较,证明了这些方法可以通过估计贝尔曼误差,仅依靠批数据和输出静态策略的算法,享受与任务无关的线性迭代时间性质。 其中一种算法使用了新颖而明确的重要性加权校正,以克服贝尔曼误差估计中的 “双重抽样” 难题,并且没有使用任何平方损失。 我们的分析揭示了与传统算法相比,其不同的特点和潜在优势。
Mar, 2020
本文针对强化学习中的大状态空间问题,研究使用函数逼近的强化学习方法,并提出了寻找高效率算法的方案,同时探讨了计算难度与统计问题之间的关系。
Feb, 2022
本文针对强化学习中函数逼近问题的不同解决方式所带来的代理 - 环境边界界定问题,通过对 Fitted Q-Iteration 算法进行一个简单且新颖的边界不变量分析,解决了价值函数的定义不唯一的问题,并讨论了相关问题,如状态重置和蒙特卡罗树搜索等。
May, 2019
本研究针对离线强化学习中的样本利用效率问题,提出了基于地位结构的重要性采样(MIS)的悲观算法,并利用较弱的函数逼近前提给出保证。
Mar, 2022