Dec, 2015

使用关注力的深度强化学习用于拥有高维状态和动作的 Slate Markov 决策过程

TL;DR介绍了一种新的深度 Q 学习算法,用于处理高维度下的推荐系统问题,该算法将基于特征表示的深度 Q 学习与 Slate Markov 决策过程相结合,优化了策略的组合和序列属性,并采用深度确定性策略梯度和风险探索,提高了智能体的性能和发现潜在策略的能力。