Jul, 2023

非平稳时延组合半赌博问题与因果相关奖励

TL;DR在不稳定环境中进行的顺序决策和反馈延迟引起的问题,通过学习因果关系来减轻决策过程中的不利影响,本文将此问题形式化为具有因果关联奖励的非平稳和延迟组合半强盗问题,并通过数值分析在意大利使用合成和真实世界数据集来检测对Covid-19传播最重要的地区。