May, 2020

通过随机奖励估计的半监督对话策略学习

TL;DR本文提出了用于半监督策略学习的新型奖励学习方法,该方法借助动态模型来计算奖励值,并结合动作嵌入进行奖励函数的泛化,从而优于其他竞争性策略学习基线,适用于任务导向型对话系统。