Jun, 2016

深度强化学习下面向对话状态跟踪和管理的端到端学习

TL;DR该论文提出了一个基于Deep Recurrent Q-Networks变体的端到端对话系统框架,使用强化学习与监督学习的混合算法,在20 Questions游戏模拟器上的实验结果表明,该模型优于基线模型,并学习了潜在对话状态的分布式表示。