Feb, 2023

具有历史依赖的动态环境下的强化学习

TL;DR本研究介绍了一种新的强化学习框架:动态上下文马尔可夫决策过程(DCMDPs),着重关注于处理非马尔可夫环境的情况。该模型利用聚合函数确定上下文转换,使得指数与历史长度的依赖关系得到破解。作者还展现了在基于该模型的算法上的实现效果。实验根据 MovieLens 数据开展,主要探讨了针对推荐任务变化的用户行为的模式研究