关键词online decision-making
搜索结果 - 3
- 图神经汤普森采样
我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法,该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器,并证明在一定奖励函数边界的假设下,该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界,并且 - 带补给背包的强盗问题:两全其美
该研究提出了一种 BwK 框架的一般化模型,允许非单调资源利用,并提出了一个灵活的双重模板以处理任何具有再生性问题的在线学习问题,包括对抗和随机输入,同时可用于解决一些实际相关的经济问题。
- 上下文匹配赌博机环境下的在线决策统计推断
这篇论文研究在线决策问题,通过采用上下文乐队 it,并建立奖励模型来进行长期奖励最大化。 使用估计模型参数的 OLS 和 WLS 方法来处理该问题,借助中心极限定理证明了参数的渐近正常性。同时,我们还通过实验验证了我们的结论。