强化学习教程介绍

Apr, 2023

A Tutorial Introduction to Reinforcement Learning

Mathukumalli Vidyasagar

TL;DR本文介绍了强化学习的概念，重点讲述了随机逼近在其中的作用。文中涵盖了马尔可夫奖励过程、马尔可夫决策过程、随机逼近算法以及广泛使用的算法如时序差分学习和 Q 学习。

Abstract

In this paper, we present a brief survey of reinforcement learning (RL), with particular emphasis on stochastic approximation (SA) as a unifying theme. The scope of the paper includes →

reinforcement learning stochastic approximation markov reward processes markov decision processes temporal difference learning

发现论文，激发创造

强化学习：一项调查

本论文从计算机科学的角度调查了强化学习领域，包括历史、现状和实践应用等方面，并重点探讨了强化学习中的中心问题，如平衡探索和利用、马尔可夫决策理论、延迟强化学习等。

May, 1996

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

智能代理和机制学习算法

论文研究强化学习及拍卖设计的优化决策算法，包括最大熵强化学习、基于贝叶斯角度的强化学习、策略学习算法 LEEP、匿名拍卖用于对称性保护的神经网络 EquivariantNet 及用于拍卖学习问题的双人博弈算法 ALGNet。

Oct, 2022

强化学习与概率推断的理解

本研究因 RL 作为推理方法的短处而对其进行澄清，RL 代理人必须考虑其行动对未来奖励和观察结果的影响，即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳，但我们展示了通过小修正该框架可以获得可靠的算法，该算法与最近提出的 K-learning 等价，我们进一步将其与汤普森取样联系起来。

Jan, 2020

自动强化学习概述

论文探讨自动化强化学习的关键元素和挑战，并讨论自动化强化学习的最新工作、应用和研究方向。

Jan, 2022

强化学习简明概述

这篇研究论文简明扼要地总结了单智能体强化学习领域的许多关键成果，适合具有强化学习相关知识的读者进行回顾、参考和提醒。

Jan, 2023

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

动态环境下强化学习算法综述

本文综述了针对动态环境模型的强化学习方法，目的是在学习过程中最小化奖励损失或找到适当的策略以实现在不断变化的操作条件下智能体的适应，并讨论了这些方法的优缺点以及未来的改进方向。

May, 2020

非线性随机逼近的有限样本分析及其在强化学习中的应用

研究了一种在 Markovian 噪声下的非线性随机逼近算法，证明了其具有不同学习速率的有限样本收敛界限，并证明了其适用于 Q-learning 算法。

May, 2019

随机动作集的规划与学习

研究了具有随机动作集的马尔可夫决策过程及其最优策略和值函数的性质，并针对不同情况提出了多项式时间的策略迭代和价值迭代方法。

May, 2018