Aug, 2018

基于目标的对话策略学习与失败处理

TL;DR该论文提出了两种基于 Hindsight experience replay 的复杂方法,以解决对话学习中由于奖励稀疏和早期学习阶段成功对话次数的不足导致的对话策略学习困难问题。与现有的经验重放方法相比,该方法在学习速度上有更好的表现。