AAAIApr, 2020

指引我们:从演示中学习对话管理

TL;DR我们对第八次对话系统技术挑战赛的端到端多域对话跟踪进行了提交。我们的系统采用管道架构,包含自然语言理解、对话状态跟踪、对话管理和自然语言生成等组件。我们利用基于示范的深度 Q 学习强化学习算法来学习对话策略,并通过对话管理组件的评估表明该方法的有效性优于监督和强化学习基线模型。