Apr, 2017

层次深度强化学习下的复合任务完成对话策略学习

TL;DR本文针对复杂任务对话代理的构建问题,如旅行规划,通过将任务公式化为基于马尔可夫决策过程的选项数学框架,并提出一种层次深度强化学习方法来学习不同时间尺度上运行的对话管理器,包括顶层对话策略、低层对话策略和全局状态跟踪器,实验结果表明该方法在模拟和真实用户的旅行规划任务中,相比于三个基于手工规则和基于平面深度强化学习的基准系统,有显著的改进。