Jul, 2019

基于强化学习的推荐系统中带有隐含混杂因素的环境重构

TL;DR本文提出了一个名为deconfounded multi-agent environment reconstruction (DEMER)的方法,通过在多智能体生成对抗模仿学习框架中引入隐藏策略,采用兼容的鉴别器训练策略来学习环境及其潜在的干扰因素,应用于司机方案推荐,有效地重建了隐藏的干扰因素,并在真实应用实验中得到了显著改进建议的表现。