强化学习和交互决策的基础

Dec, 2023

Foundations of Reinforcement Learning and Interactive Decision Making

Dylan J. Foster, Alexander Rakhlin

TL;DR这篇论文采用统计学的角度对强化学习和互动决策的基础进行了概述，提出了一个统一的框架来解决探索与利用的困境，同时使用频率学派和贝叶斯方法，并通过监督学习、估计和决策之间的联系和相似之处作为一个主题展开。特别关注于函数逼近和灵活的模型类别，如神经网络。涵盖的主题包括多臂老虎机、背景老虎机和具有高维反馈的强化学习。

Abstract

These lecture notes give a statistical perspective on the foundations of reinforcement learning and interactive decision making. We present a unifying framework for addressing the exploration-exploitation dilemma

reinforcement learning exploration-exploitation dilemma function approximation neural networks multi-armed bandits

发现论文，激发创造

强化学习：一项调查

本论文从计算机科学的角度调查了强化学习领域，包括历史、现状和实践应用等方面，并重点探讨了强化学习中的中心问题，如平衡探索和利用、马尔可夫决策理论、延迟强化学习等。

May, 1996

强化学习与概率推断的理解

本研究因 RL 作为推理方法的短处而对其进行澄清，RL 代理人必须考虑其行动对未来奖励和观察结果的影响，即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳，但我们展示了通过小修正该框架可以获得可靠的算法，该算法与最近提出的 K-learning 等价，我们进一步将其与汤普森取样联系起来。

Jan, 2020

贝叶斯强化学习：一项调查

本文深入探讨贝叶斯方法在强化学习中的作用，讨论了使用贝叶斯推理进行动作选择和利用先验知识等方面的优点，概述了在单步赌博机模型、模型基 RL 和模型无 RL 中贝叶斯方法的模型与方法，并全面评估了贝叶斯 RL 算法及其理论和实证性质。

Sep, 2016

智能代理和机制学习算法

论文研究强化学习及拍卖设计的优化决策算法，包括最大熵强化学习、基于贝叶斯角度的强化学习、策略学习算法 LEEP、匿名拍卖用于对称性保护的神经网络 EquivariantNet 及用于拍卖学习问题的双人博弈算法 ALGNet。

Oct, 2022

强化学习教程介绍

本文介绍了强化学习的概念，重点讲述了随机逼近在其中的作用。文中涵盖了马尔可夫奖励过程、马尔可夫决策过程、随机逼近算法以及广泛使用的算法如时序差分学习和 Q 学习。

Apr, 2023

风险敏感和鲁棒的基于模型的强化学习和规划

本研究主要关注序列决策算法中的不确定性和风险问题，通过探索规划和强化学习两种方法，尤其是面向基于模型算法的研究，旨在缓解 epistemic 和 aleatoric 不确定性问题。

Apr, 2023

基于丰富观测的 PAC 强化学习

本研究提出一种新的强化学习模型，将上下文逐步演化到顺序决策制定，通过分析最小二乘值淘汰算法表明，在某些特定情形，强化学习方法的范数较优行为可以在多项式时间内学习。

Feb, 2016

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

分布式强化学习探索

该研究提出了一种基于分布强化学习和结合贝叶斯参数更新与深度强化学习的框架，将多种先前的探索方法进行了概念统一，并推导出一个实用算法，在具有挑战性的控制任务上实现高效的探索。

May, 2018

强化学习与控制的概率推断：教程与综述

该研究介绍了一种基于最大熵的强化学习或最优控制方法，该方法在确定性动力学和随机动力学方面分别相当于精确概率推断和变分推断，并探讨了相关算法和未来研究方向。

May, 2018