关于价值函数和智能体-环境边界
本文提出了一种新的RL算法RLSVI,针对线性参数化的价值函数进行探索和泛化,相较于Boltzmann或epsilon-greedy探索,RLSVI实现了显著的效率提高,并在tabula rasa的学习环境下展现出接近最优的表现,研究表明随机化的价值函数是解决增强学习中有效探索和泛化的关键所在。
Feb, 2014
本文提出了第一个在基于线性动态和线性奖励时,具有多项式运行时间和样本复杂度的可证明的强化学习算法,该算法可以在不需要模拟器或其他假设的情况下实现,具有快速速度且与状态和动作数量无关。
Jul, 2019
本文提出一种基于一般价值函数逼近的强化学习算法,目的是建立一种没有对环境模型的显式假设的RL算法。如果价值函数能使用函数集合F近似,该算法将实现后悔界,为实际中使用的算法提供一个框架来证明其有效性。
May, 2020
本文探讨强化学习中的值等价性原则,提出基于值等价性原则的模型学习问题,证明了随着政策和函数集的扩大,价值等价模型的类别将收缩到描述环境的完美模型上,并通过实验验证了该价值等价模型学习方法的优越性及其在最大似然估计等传统模型学习算法中的实用意义,在强化学习领域常常用于模型学习的价值迭代网络、预测器等模型反映了该价值等价性原则的应用。
Nov, 2020
本文提出一个本地极小极大方法,分析了计算强化学习下的最优$Q$值函数的实例特定行为,并提供一个针对$Q$学习中困难问题和易解问题的有力解释。
Jun, 2021
该研究针对强化学习中探索困境的问题,研究了无奖励的强化学习问题,提出了一种基于内核和神经函数逼近的乐观value迭代探索算法,证明了该方法可以在提供任意外界奖励的情况下,实现产生准最优策略或近似Nash均衡的复杂性为O(1/epsilon^2)的采样复杂度,是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。
Oct, 2021
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
我们介绍了一种分析连续状态-动作空间强化学习的新框架,并将其用于在离线和在线设置中证明收敛速度快。我们的分析突显了两个关键的稳定性属性,涉及价值函数和/或策略变化如何影响贝尔曼算子和占据测度。我们认为这些属性在许多连续状态-动作马尔科夫决策过程中得到满足,并展示了这些属性在使用线性函数逼近方法时如何自然产生。我们的分析为离线和在线强化学习中悲观主义和乐观主义的作用提供了新的视角,并突出了离线强化学习与迁移学习之间的联系。
Jan, 2024