Dec, 2023

强化学习和交互决策的基础

TL;DR这篇论文采用统计学的角度对强化学习和互动决策的基础进行了概述,提出了一个统一的框架来解决探索与利用的困境,同时使用频率学派和贝叶斯方法,并通过监督学习、估计和决策之间的联系和相似之处作为一个主题展开。特别关注于函数逼近和灵活的模型类别,如神经网络。涵盖的主题包括多臂老虎机、背景老虎机和具有高维反馈的强化学习。