ACLApr, 2020

从弱演示中学习对话策略

TL;DR本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法,利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators,以解决多领域对话系统中 state 和 action 空间较大的问题,并在实验中取得了较高的成功率。