Jul, 2023

具有确定性演化状态的赌博机

TL;DR我们提出了一种在考虑确定性演变和不可观测状态下进行强化学习的模型,其核心应用领域是推荐系统和在线广告学习,通过在算法选择的每一轮中考虑行为的短期奖励和系统的 “健康” 程度(即由其状态衡量),来计算奖励;该模型可适应不同演变速率 λ,旨在最小化与最佳固定选择序列相比的遗憾度。