BriefGPT.xyz
Dec, 2017
使用策略梯度的端到端离线目标导向型对话策略学习
End-to-End Offline Goal-Oriented Dialog Policy Learning via Policy Gradient
HTML
PDF
Li Zhou, Kevin Small, Oleg Rokhlenko, Charles Elkan
TL;DR
本文提出了一种离线强化学习方法,可从未标注的语料库中学习,既可以在话语级别上进行优化又可以在对话级别上进行优化,解决了现有方法对话级别考虑不足的问题,并使用了一种新的奖励函数和在线/离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。
Abstract
Learning a goal-oriented
dialog policy
is generally performed offline with
supervised learning
algorithms or online with
reinforcement learning
→