Oct, 2023

基于 Whittle 指数的有限时间分析:带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习

TL;DR基于神经网络函数逼近的 Whittle 指数的 Q - 学习算法 Neural-Q-Whittle 解决不断变化的多臂赌博机问题,通过耦合两个时间尺度的 Q - 函数和 Whittle 指数,提供了 Neueral-Q-Whittle 的收敛速率为 O (1/k^(2/3)) 的有限时间分析。