ACLFeb, 2019

基于潜变量模型的端对端对话代理强化学习中的行动空间重新思考

TL;DR该研究提出了一种新颖的潜在动作框架,将端到端会话代理的动作空间视为潜在变量,并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明,所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。