关于价值函数的有限表达能力及其与统计 (非) 效率的联系
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。
Feb, 2018
我们证明了强化学习算法(包括无模型及基于模型的方法)的效率存在一个基本限制,其与环境进行交互寻找最优行为的过程在某类强化学习问题中具有指数级的下界;然而,存在一种对该类问题具有高效解决能力的方法,而该方法并非专门针对该类问题设计;与此相反,我们的限制并不适用于文献中提出的某些方法,例如,以目标为条件的方法或其他构建逆动力学模型的算法。
Sep, 2023
从统计学角度出发,本文展示了关于样本高效强化学习的充分条件其实比从传统的近似观点得出的条件更加苛刻。本文的主要研究结果为强化学习方法提供了尖锐的下限,揭示了好的(基于值、基于模型或基于策略)表示本身并不足以实现高效强化学习,除非这种近似的质量通过某些硬性门槛。此外,本研究还暗示了以下因素之间的样本复杂度呈指数倍增长:1)基于值的学习与任何质量的基于值的近似学习;2)基于值的学习与基于策略的学习;3)基于策略的学习和监督学习;4)强化学习和模仿学习。
Oct, 2019
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
本文对用于连续控制问题的一类基于模型的价值扩展方法中的样本效率的问题进行了研究,并通过实验表明,在提升普通动力学模型的准确性时所增加的样本效率 marginally,远远达不到与无模型方法相当的表现。
Mar, 2023
本文提出了一种新的信息论政策评估技术,该技术将任何压缩或密度模型转化为相应的值估计,研究了该技术在 Atari 2600 视频游戏中的应用,发现该技术提供足够准确的价值估计来有效地进行政策控制,并指出该技术在规模化问题上具有潜在的应用前景。
Nov, 2014
通过基于值函数空间的几何特性,提出了一种新的表征学习的视角,证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中,展示了敌对价值函数作为辅助任务的有用性和特点。
Jan, 2019