Feb, 2023
具有历史依赖的动态环境下的强化学习
Reinforcement Learning with History-Dependent Dynamic Contexts
Guy Tennenholtz, Nadav Merlis, Lior Shani, Martin Mladenov, Craig Boutilier
TL;DR本研究介绍了一种新的强化学习框架:动态上下文马尔可夫决策过程(DCMDPs),着重关注于处理非马尔可夫环境的情况。该模型利用聚合函数确定上下文转换,使得指数与历史长度的依赖关系得到破解。作者还展现了在基于该模型的算法上的实现效果。实验根据 MovieLens 数据开展,主要探讨了针对推荐任务变化的用户行为的模式研究