Jun, 2016

使用双阶段训练的策略网络用于对话系统

TL;DR本文提出使用训练有优势 actor-critic 方法的深度策略网络统计优化对话系统,演示了在深度强化学习下优于高斯过程方法,可以有效地训练部分可观察马尔可夫决策过程的对话系统,有效提高学习速度,所有实验在 DSTC2 餐厅领域数据集上进行。