Dec, 2017

使用策略梯度的端到端离线目标导向型对话策略学习

TL;DR本文提出了一种离线强化学习方法,可从未标注的语料库中学习,既可以在话语级别上进行优化又可以在对话级别上进行优化,解决了现有方法对话级别考虑不足的问题,并使用了一种新的奖励函数和在线/离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。