Sep, 2017

端到端可训练任务导向神经对话模型中的迭代策略学习

TL;DR本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法,解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题,同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中,其关键在于通过深度RL来同时优化对话代理和用户模拟器的对话策略,并且对话代理和用户模拟器均建立在端到端的神经网络模型上。