Jun, 2024

基于表格和深度学习的 Whittle 指数计算

TL;DR使用 QWI 和 QWINN 两种强化学习算法,分别基于表格和深度学习结构,学习总折扣标准下的 Whittle 指数。关键特征是使用两个时间尺度,一个更快的时间尺度用于更新状态 - 动作 Q 值,一个相对较慢的时间尺度用于更新 Whittle 指数。在理论结果中证明了 QWI 的收敛性,并介绍了基于神经网络的 QWINN 算法,能够在大状态空间环境中从一个状态推断出另一个状态,并且与其他算法相比收敛速度更快。