Apr, 2023
强化学习教程介绍
A Tutorial Introduction to Reinforcement Learning
Mathukumalli Vidyasagar
TL;DR本文介绍了强化学习的概念,重点讲述了随机逼近在其中的作用。文中涵盖了马尔可夫奖励过程、马尔可夫决策过程、随机逼近算法以及广泛使用的算法如时序差分学习和 Q 学习。
Abstract
In this paper, we present a brief survey of reinforcement learning (RL), with
particular emphasis on stochastic approximation (SA) as a unifying theme. The
scope of the paper includes →
reinforcement learningstochastic approximationmarkov reward processesmarkov decision processestemporal difference learning
发现论文,激发创造
主动学习强化学习:一种随机最优控制方法
本文提供了一个应对强化学习的框架,解决了建模不确定性和计算成本高的问题,通过使用强化学习来解决随机动态规划方程,所得的强化学习控制器对多种类型的约束条件是安全的,并且可以主动学习建模不确定性,实现实时学习。通过模拟实例证明了提出方法的有效性。
Sep, 2023
智能代理和机制学习算法
论文研究强化学习及拍卖设计的优化决策算法,包括最大熵强化学习、基于贝叶斯角度的强化学习、策略学习算法 LEEP、匿名拍卖用于对称性保护的神经网络 EquivariantNet 及用于拍卖学习问题的双人博弈算法 ALGNet。
Oct, 2022
强化学习与概率推断的理解
本研究因 RL 作为推理方法的短处而对其进行澄清,RL 代理人必须考虑其行动对未来奖励和观察结果的影响,即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳,但我们展示了通过小修正该框架可以获得可靠的算法,该算法与最近提出的 K-learning 等价,我们进一步将其与汤普森取样联系起来。
Jan, 2020
强化学习推荐系统综述
本文对基于强化学习的推荐系统进行了综述,提出了一个 RLRS 框架,包括状态表示,策略优化,奖励制定和环境构建,并针对 RLRS 算法进行了调查,强调出现的主题并展示了各种图表。
Jan, 2021
动态环境下强化学习算法综述
本文综述了针对动态环境模型的强化学习方法,目的是在学习过程中最小化奖励损失或找到适当的策略以实现在不断变化的操作条件下智能体的适应,并讨论了这些方法的优缺点以及未来的改进方向。
May, 2020
非线性随机逼近的有限样本分析及其在强化学习中的应用
研究了一种在 Markovian 噪声下的非线性随机逼近算法,证明了其具有不同学习速率的有限样本收敛界限,并证明了其适用于 Q-learning 算法。
May, 2019