Jun, 2016

使用组合行动空间的深度强化学习预测流行的 Reddit 帖子

TL;DR本研究引入一种在线人气预测和追踪任务,作为强化学习在组合自然语言动作空间的基准任务,使用深度强化学习架构,通过双向LSTM建立子动作之间的依赖关系来提高建模价值函数的效果,并在不同实验配置和领域中表现出最佳性能并具有良好的泛化能力。