关于价值函数和智能体-环境边界

May, 2019

On Value Functions and the Agent-Environment Boundary

Nan Jiang

TL;DR本文针对强化学习中函数逼近问题的不同解决方式所带来的代理-环境边界界定问题，通过对Fitted Q-Iteration算法进行一个简单且新颖的边界不变量分析，解决了价值函数的定义不唯一的问题，并讨论了相关问题，如状态重置和蒙特卡罗树搜索等。

Abstract

When function approximation is deployed in reinforcement learning (RL), the same problem may be formulated in different ways, often by treating a pre-processing step as a part of the environment or as part of the

发现论文，激发创造

通过随机化价值函数实现泛化和探索

本文提出了一种新的RL算法RLSVI，针对线性参数化的价值函数进行探索和泛化，相较于Boltzmann或epsilon-greedy探索，RLSVI实现了显著的效率提高，并在tabula rasa的学习环境下展现出接近最优的表现，研究表明随机化的价值函数是解决增强学习中有效探索和泛化的关键所在。

Feb, 2014

批量强化学习中的信息论考虑

本文探讨了在批处理模式下操作的值函数逼近方法，在有限样本和保证的前提下，分析了分布变化和强表示条件等假设的必需性和自然性，并提供了相关的理论结果。

May, 2019

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的RL算法。如果价值函数能使用函数集合F近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

May, 2020

基于模型的强化学习中的价值等价原则

本文探讨强化学习中的值等价性原则，提出基于值等价性原则的模型学习问题，证明了随着政策和函数集的扩大，价值等价模型的类别将收缩到描述环境的完美模型上，并通过实验验证了该价值等价模型学习方法的优越性及其在最大似然估计等传统模型学习算法中的实用意义，在强化学习领域常常用于模型学习的价值迭代网络、预测器等模型反映了该价值等价性原则的应用。

Nov, 2020

最优值估计中的实例最优性：通过方差缩减Q学习实现自适应

本文提出一个本地极小极大方法，分析了计算强化学习下的最优$Q$值函数的实例特定行为，并提供一个针对$Q$学习中困难问题和易解问题的有力解释。

Jun, 2021

基于核和神经函数逼近的无奖励强化学习：单智能体马尔可夫决策过程和马尔可夫博弈

该研究针对强化学习中探索困境的问题，研究了无奖励的强化学习问题，提出了一种基于内核和神经函数逼近的乐观value迭代探索算法，证明了该方法可以在提供任意外界奖励的情况下，实现产生准最优策略或近似Nash均衡的复杂性为O(1/epsilon^2)的采样复杂度，是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。

Oct, 2021

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

强化学习智能体迭代设计的价值函数分解

本文介绍如何将价值分解结合到广泛类的演员-评论家算法中，以协助迭代代理设计过程，包括引入基于价值分解的工具和一种新的奖励影响度量方法。

Jun, 2022

在连续状态-动作空间中驯服“数据饥饿”的强化学习稳定性

我们介绍了一种分析连续状态-动作空间强化学习的新框架，并将其用于在离线和在线设置中证明收敛速度快。我们的分析突显了两个关键的稳定性属性，涉及价值函数和/或策略变化如何影响贝尔曼算子和占据测度。我们认为这些属性在许多连续状态-动作马尔科夫决策过程中得到满足，并展示了这些属性在使用线性函数逼近方法时如何自然产生。我们的分析为离线和在线强化学习中悲观主义和乐观主义的作用提供了新的视角，并突出了离线强化学习与迁移学习之间的联系。

Jan, 2024