ACLJun, 2019

面向任务导向对话系统的预算策略学习

TL;DR本文提出了一种新的方法,通过引入预算感知调度(BCS)扩展了 Deep Dyna-Q(DDQ),以最大限度地利用固定的少量用户交互(预算)来学习面向任务的对话代理。实验表明,在固定预算的情况下,与现有技术相比,我们的方法在虚拟和真实用户下都显著提高了成功率。