关于价值函数的有限表达能力及其与统计 (非) 效率的联系

Mar, 2024

关于价值函数的有限表达能力及其与统计 (非) 效率的联系

On the Limited Representational Power of Value Functions and its Links to Statistical (In)Efficiency

David Cheikhi, Daniel Russo

TL;DR通过一系列的案例研究，本文深入探讨了模型识别和无模型方法之间的权衡，重点关注了在政策评估的核心问题上，价值函数空间内无法准确表示转移动态信息的情况，揭示了价值函数的表达能力限制是低效的驱动因素。

Abstract

Identifying the trade-offs between model-based and model-free methods is a central question in reinforcement learning. →

reinforcement learning model-based model-free value-based methods policy evaluation

发现论文，激发创造

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

基于模型的随机价值梯度在连续强化学习中的应用

本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法，发现在高维控制任务中，基于模型的策略评估方法比传统方法更有效。

Aug, 2020

强化学习方法之间的效率分离：无模型、基于模型和目标条件

我们证明了强化学习算法（包括无模型及基于模型的方法）的效率存在一个基本限制，其与环境进行交互寻找最优行为的过程在某类强化学习问题中具有指数级的下界；然而，存在一种对该类问题具有高效解决能力的方法，而该方法并非专门针对该类问题设计；与此相反，我们的限制并不适用于文献中提出的某些方法，例如，以目标为条件的方法或其他构建逆动力学模型的算法。

Sep, 2023

良好的表现是否足以保证强化学习样本的高效利用？

从统计学角度出发，本文展示了关于样本高效强化学习的充分条件其实比从传统的近似观点得出的条件更加苛刻。本文的主要研究结果为强化学习方法提供了尖锐的下限，揭示了好的（基于值、基于模型或基于策略）表示本身并不足以实现高效强化学习，除非这种近似的质量通过某些硬性门槛。此外，本研究还暗示了以下因素之间的样本复杂度呈指数倍增长：1）基于值的学习与任何质量的基于值的近似学习；2）基于值的学习与基于策略的学习；3）基于策略的学习和监督学习；4）强化学习和模仿学习。

Oct, 2019

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

批量强化学习中的信息论考虑

本文探讨了在批处理模式下操作的值函数逼近方法，在有限样本和保证的前提下，分析了分布变化和强表示条件等假设的必需性和自然性，并提供了相关的理论结果。

May, 2019

模型强化学习中价值扩展方法的递减收益

本文对用于连续控制问题的一类基于模型的价值扩展方法中的样本效率的问题进行了研究，并通过实验表明，在提升普通动力学模型的准确性时所增加的样本效率 marginally，远远达不到与无模型方法相当的表现。

Mar, 2023

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

利用线性模型表示形式研究离线强化学习的统计学限制，提出方差感知悲观值迭代算法，重新权重贝尔曼残差以提高离线学习界限。

Mar, 2022

压缩与控制

本文提出了一种新的信息论政策评估技术，该技术将任何压缩或密度模型转化为相应的值估计，研究了该技术在 Atari 2600 视频游戏中的应用，发现该技术提供足够准确的价值估计来有效地进行政策控制，并指出该技术在规模化问题上具有潜在的应用前景。

Nov, 2014

强化学习最优表示的几何视角

通过基于值函数空间的几何特性，提出了一种新的表征学习的视角，证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中，展示了敌对价值函数作为辅助任务的有用性和特点。

Jan, 2019