BriefGPT.xyz
Ask
alpha
关键词
restless multi-armed bandit problems
搜索结果 - 1
基于表格和深度学习的 Whittle 指数计算
使用 QWI 和 QWINN 两种强化学习算法,分别基于表格和深度学习结构,学习总折扣标准下的 Whittle 指数。关键特征是使用两个时间尺度,一个更快的时间尺度用于更新状态 - 动作 Q 值,一个相对较慢的时间尺度用于更新 Whittl
→
PDF
a month ago
Prev
Next